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内 容 简 介 


Stata 是 公认 的 应 用 最 广泛 的 专业 数据 分 析 软 件 之 一 ， 因 其 功能 丰富 、 效 率 高 、 操 作 简便 ， 深 受 广大 用 户 ， 
尤其 受 在 校 师 生 的 青睐。 

本 书 为 《Stata 统 计 分 析 与 行业 应 用 案例 详解 》 的 升级 版 本 Stata 14.0) ， 沿 用 第 一 版 (Stata 12.0) 的 写 
作风 格 ， 采用 先 讲解 Stata 的 各 个 操作 功能 再 通过 综合 案例 讲述 Stata 在 各 个 行业 中 实际 应 用 的 思路 编写 。 本 书 
内 容 共 分 为 两 个 部 分 : 第 1 部 分 是 第 1~16 章 ， 按 照 统计 类 型 讲述 Stata 的 具体 应 用 ;第 2 部 分 是 第 17~23 章 ， 分 行 
业 讲 述 了 Stata 的 具体 应 用 。 各 章 均 附 有 与 正文 部 分 对 应 的 上 机 操作 练习 题 ， 目 的 是 着 重 培 养 读 者 的 动手 能 力 ， 
使 读者 在 实际 练习 的 过 程 中 能 够 快速 提高 应 用 水 平 。 

本 书面 向 具备 一 定 统计 学 基础 和 计算 机 操作 基础 的 在 校 各 专业 学 生 ， 以 及 企 事业 单位 的 相关 数据 统计 分 
析 人 员 。 
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Stata 是 公认 的 应 用 最 广泛 的 专业 数据 分 析 软 件 之 一 ， 以 功能 丰富 、 效 率 高 、 操 作 简便 而 
著称 ， 主 要 针对 经 济 、 管 理 、 医 学 、 农 学 、 教 育 、 市 场 研究 、 社 会 调查 等 多 个 行业 和 领域 。 
Stata 拥有 最 具 亲 和 力 的 窗口 ， 使 用 者 自行 建立 程序 时 ， 软 件 能 提供 具有 直接 命令 式 的 语法 ， 
是 非常 适合 进行 数据 分 析 的 工具 软件 。 本 书 在 第 一 版 Stata 12.0 的 基础 上 进行 了 软件 版 本 升级 ， 
通过 多 个 实例 详细 介绍 了 Stata 14.0 在 现实 生活 中 的 应 用 。 

全 书 共 23 章 ， 分 为 如 下 两 个 部 分 。 

第 1 部 分 (第 1~16 章 ) 为 Stata 的 各 个 操作 功能 在 具体 实例 中 的 应 用 。 


第 1 章 介绍 了 Stata 14.0 基本 窗口 以 及 管理 变量 与 数据 ,包括 Stata 14.0 窗口 说 明 、 数 
据 文 件 的 创建 与 读 取 、 创 建 和 替代 变量 、 分 类 变量 和 定 序 变量 的 基本 操作 、 数 据 的 基 
本 操作 以 及 定义 数据 的 子 集 等 。 

第 2 章 介绍 了 Stata 制图 实例 ， 包 括 直 方 图 、 散 点 图 、 曲 线 标 绘图 、 连 线 标 绘图 、 箱 
图 、 饼 图 、 条 形 图 、 点 图 等 。 

第 3 章 介绍 了 Stata 描述 统计 实例 ， 包 括 定 距 变量 的 描述 性 统计 分 析 、 正 态 性 检验 和 
数据 转换 、 单 个 分 类 变量 的 汇总 、 两 个 分 类 变量 的 列 联 表 分 析 、 多 表 和 多 维 列 联 表 分 
析 等 。 

第 4 章 介绍 了 Stata 参数 检验 实例 ， 包 括 单一 样本 了 检验 、 独 立 样本 了 检验 、 配 对 样 
本 工 检验 、 单 一 样本 方差 的 假设 检验 、 双 样本 方差 的 假设 检验 等 。 

第 5 章 介绍 了 Stata 非 参数 检验 实例 ， 包 括 单一 样本 的 正 态 分 布 检验 、 两 独立 样本 检 
验 、 两 相关 样本 检验 、 多 独立 样本 检验 、 游 程 检验 等 。 

第 6 章 介绍 了 Stata 方差 分 析 实例 ， 包 括 单 因素 方差 分 析 、 多 因素 方差 分 析 、 协 方差 
分 析 、 重 复 测 量 方差 分 析 等 。 

第 7 章 介绍 了 Stata 相关 分 析 实例 ， 包 括 简单 相关 分 析 、 偏 相关 分 析 等 。 

第 8 章 介绍 了 Stata 主 成 分 分 析 与 因子 分 析 实 例 。 

第 9 章 介绍 了 Stata 聚 类 分 析 实 例 ， 包 括 划分 聚 类 分 析 和 层次 聚 类 分 析 等 。 

第 10 章 介绍 了 Stata 最 小 二 乘 线性 回归 分 析 实 例 ,， 包 括 简单 线性 回归 和 多 重 线性 回归 
等 。 
第 11 章 介绍 了 Stata 回归 诊断 分 析 实例 ， 包 括 异 方差 检验 、 自 相关 检验 、 多 重 共 线性 
第 12 章 介绍 了 Stata 非 线性 回归 分 析 实 例 ， 包 括 非 参数 回归 分 析 、 转 换 变量 回归 分 析 
以 及 非 线性 回归 分 析 等 。 

第 13 章 介绍 了 Stata 的 Logistic 回归 分 析 实 例 ， 包 括 二 元 Logistic 回归 分 析 、 多 元 
Logistic 回归 分 析 以 及 有 序 Logistic 回归 分 析 等 。 

第 14 章 介绍 了 Stata 的 因 变 量 受 限 回归 分 析 实 例 , 包 括 断 尾 回归 分 析 和 截取 回归 分 析 。 


。 第 15 章 介绍 了 Stata 时 间 序 列 分 析 实 例 , 包括 时 间 序 列 分 析 的 基本 操作 、 单 位 根 检验 、 
协 整 检验 、 格 兰 杰 因果 关系 检验 等 。 
。 第 16 章 介绍 了 Stata 的 面板 数据 分 析 实例 ， 包 括 长 面板 数据 分 析 和 短 面 板 数据 分 析 。 


第 2 部 分 (第 17~23 章 ) 为 Stata 在 各 个 行业 中 的 实际 应 用 。 


第 17 章 介绍 了 Stata 在 研究 城市 综合 经 济 实力 中 的 应 用 。 

第 18 章 介绍 了 Stata 在 旅游 业 中 的 应 用 。 

第 19 章 介绍 了 Stata 在 经 济 增长 分 析 中 的 应 用 。 

第 20 章 介绍 了 Stata 在 原油 与 黄金 价格 联动 关系 研究 中 的 应 用 。 

第 21 章 介绍 了 中 国 上 市 银行 的 ROE 与 股权 集中 度 之 间 关 系 研究 中 的 应 用 。 
第 22 章 介绍 了 Stata 在 农业 中 的 应 用 。 

第 23 章 介绍 了 Stata 软件 在 保险 业 中 的 应 用 。 


本 书 实例 经 典 ， 内 容 丰 富 ， 有 很 强 的 针对 性 。 书 中 各 章 不 仅 详细 介绍 了 实例 的 具体 操作 
步 又, 还 配 有 一 定数 量 的 练习 题 ， 以 供 读者 学 习 使 用 。 读 者 只 需 按照 书 中 介绍 的 步骤 一 步 步 地 
实际 操作 ， 就 能 完全 掌握 本 书 的 内 容 。 

为 了 帮助 读者 更 加 直观 地 学 习 本 书 ， 我 们 将 书 中 实例 和 练习 题 所 涉及 的 全 部 操作 文件 都 
收录 到 本 书 的 下 载 资源 中 ， 即 “sample” 文 件 夹 和 “video” 文 件 夹 。 前 者 包含 书 中 涉及 的 所 
有 Stata 源 文 件 ， 后 者 收录 了 书 中 所 有 实例 和 练习 题 的 操作 录像 文件 。 下 载 资源 地 址 为 : 
http://pan.baidu.com/s/1cejAHK (注意 区 分 字母 的 大 小 写 及 数字 和 字母 , 若 下 载 有 疑问 ， 
可 发 邮件 至 booksaga@163.com) 。 

本 书 既 可 作为 数据 统计 分 析 的 培训 教材 ， 也 可 作为 数据 统计 分 析 人 员 的 参考 书 。 

本 书 由 张 甜 、 李 爽 编写 ， 此 外 ， 参 与 图 书 编写 和 视频 制作 的 还 有 昌平 、 王 坚 宁 、 高 克 瑟 、 
张 云 霞 、 许 小 荣 、 王 冬 、 王 龙 、 张 银 芳 、 周 新 国 、 张 风琴 、 陈 作 聪 、 聂 阳 、 沈 妆 、 张 华 杰 、 彭 

明 、 张 秀 梅 、 张 玉兰 、 田 伟 、 肖 岳 平 、 蔡 娜 、 苏 静 、 周 艳丽 和 王 文 婷 等 ， 在 这 里 对 他 们 表示 
作者 力图 使 本 书 的 知识 性 和 实用 性 相得益彰 ， 但 由 于 水 平 有 限 ， 书 中 丝 漏 之 处 在 所 难免 ， 
欢迎 广大 读者 、 同 仁 批评 丛 正 。 
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第 1 章 Stata 14.0 的 基本 窗口 及 
管理 变量 与 数据 


Stata 是 一 种 功能 全 面 的 统计 软件 包 ， 是 目前 欧美 最 为 流行 的 计量 软件 之 一 。 它 具有 容易 
操作 、 运 行 速度 快 、 功 能 强大 的 特点 。Stata 不 仅 包括 一 整套 预先 编排 好 的 分 析 与 数据 功能 ， 
同时 还 允许 软件 使 用 者 根据 自己 的 需要 来 创建 程序 , 从 而 添加 更 多 的 功能 。 该 软件 自从 被 引入 
我 国 后 ， 迅 速 得 到 了 广大 学 者 的 认可 与 厚爱 ， 适 用 范围 越 来 越 广泛 。Stata 14.0 是 目前 Stata 的 
最 新 版 本 。 本 章 将 初步 介绍 Stata 14.0 的 基本 窗口 、 变 量 管理 与 数据 管理 。 


1.1 Stata 14.0 窗 口 说 明 


在 正确 安装 好 Stata 14.0 以 后 ， 单 击 Stata 主 程序 的 图 标 文件 ， 即 可 打开 Stata 的 主 界面 ， 
如 图 1.1 所 示 。 


ee 
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图 1.1 Stata 14.0 主 界面 

与 大 部 分 的 程序 窗口 类 似 ，Stata 14.0 也 有 自己 的 菜单 栏 、 工 具 栏 ， 但 其 特色 在 于 主 界面 
中 的 5 个 区 域 : Review、Variables、Command、Results、Properties。 

@ Review (历史 窗口 ) 显示 的 是 自 本 次 启动 Stata 14.0 以 来 执行 过 的 所 有 命令 。 

e Variables ( 变量 窗口 ) 显示 的 是 当前 Stata 数据 文件 中 的 所 有 变量 。 

。 Command (命令 窗口 ) 是 最 重要 的 窗口 ， 在 本 窗口 内 可 输入 准备 执行 的 命令 。 

。 Results ( 结果 窗口 ) 显示 的 是 每 次 执行 Stata 命令 后 的 执行 结果 ， 无 论 成 功 还 是 失败 。 

。 “Properties ( 性 质 窗口 ) 显示 的 是 当前 数据 文件 中 制定 变量 以 及 数据 的 性 质 。 

各 个 窗口 的 大 小 都 可 以 调节 ， 读 者 可 以 用 鼠标 进行 伸缩 操作 ， 使 其 符合 自己 的 风格 。 
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1.2 Stata 14.0 数 据 文件 的 创建 与 读 取 


1.2.1 ”Stata 14.0 数据 文件 的 创建 


加 | 上 重 资 源 videochapolv-… 


一 下 载 资源 :sample\chap01\ 正 文案 例 1.1.dta 


得 


【 例 1.1】 表 1.1 记录 的 是 我 国 2000 一 2009 年 上 市 公司 数量 的 数据 。 试 创建 Stata 格式 的 
数据 文件 并 保存 。 
表 1.1 我 国 2000 一 2009 年 的 上 市 公司 数量 


操作 过 程 如 下 : 

进入 Stata 14.0， 打 开 主 程序 ， 弹 出 如 图 1.2 所 示 的 主 界面 。 

轨 选择 “Data”|“Data Editor”|“Data Editor(Edit)” 命 令 ， 弹 出 如 图 1.3 所 示 的 “Data 
Editor(Edit)” 对 话 框 。 


mr | or i i i 
ER 


We | 
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Ready Length 0 VarsD Order Dataset obs0 Filer Off Mode Ed CAF NUM | 


图 12 主 界面 图 1.3 “Data Editor” 对 话 框 
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加 在 “Data Editor(Edib” 对 话 框 左 上 角 的 单元 格 中 输入 我 们 的 第 1 个 数据 “2000”， 
统 即 自动 创建 “varl” 变 量 ， 如 图 1.4 所 示 。 

单 击 右 下 方 “Properties”( 性 质 窗口 ) 中 的 “Variables”,“Variables” 中 的 变量 特征 
(包括 名 称 、 类 型 、 长 度 等 ) 即 可 进入 可 编辑 状态 ， 如 图 1.5 所 示 。 


owe etor EET | 
Fi li Vow Dat Ta File Edit View Data Tools | 
访 晶 十 有 六 国生 了 : EP EE Ed | 
wl] 2000 verill] 2000 
Ee Ey Variables a 

”| 国 L“ :|] A Finer variables he 

加 Name Label 

二 | 
Ready Vars1 OrderDataset Obsi1 Filter:Of Mode:Edit S27 NUM 2 ed 

1.4 “Data Editor” 对 话 框 图 1.5 编辑 变量 特征 


我 们 对 变量 名 称 进行 必要 的 修改 ， 因 为 第 1 个 变量 是 年 份 ， 所 以 把 “varl” 修 改 为 
“year”， 其 他 采取 系统 默认 设置 ,修改 完成 后 在 左 侧 数 据 输入 区 域 单 击 ， 即 可 弹出 如 图 1.6 
所 示 的 对 话 框 。 

国 和 逐一 数据 录入 ， 其 他 两 个 变量 参照 年 份 进 行 设置 ， 并 分 别 将 其 定义 为 “shangjiao” 和 
“shenjiao”， 数 据 录入 完毕 后 如 图 1.7 所 示 。 


1.6 修改 “Name” 变 量 1.7 录入 数据 
关闭 “Data Editor(Edit)” 对 话 框 , 在 主 界面 的 工具 栏 里 面 单 击 园 按钮 进行 数据 保存 。 


1.2.2 stata 14.0 数据 文件 的 读 取 


读 取 以 前 创建 的 Stata 格式 的 数据 文件 比较 简单 ， 有 3 种 方式 : 
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。 直接 双击 该 文件 ， 即 可 打开 数据 . 


。 在 主 界面 的 菜单 栏 里 面 选 择 “File”|“Open” 命 令 ， 找 到 文件 后 打开 即 可 。 
。 在 主 界面 的 “Command”( 命 令 窗 口 ) 中 ， 输 入 命令 : use filename (文件 的 名 称 )。 


1.3 ”创建 和 蔡 代 变量 


创建 和 替代 变量 概述 


前 面 已 经 介绍 了 创建 、 修 改 数据 文件 和 变量 的 通用 方式 ， 但 在 有 些 情况 下 ， 我 们 需要 利 
用 现 有 的 变量 生成 一 个 新 的 变量 ， 那 么 如 何 快捷 方便 地 实现 这 种 操作 呢 ? Stata 14.0 提供 了 
generate 以 及 replace 命令 以 供 我 们 选择 使 用 , 其 中 generate 命令 是 利用 现 有 变量 生成 一 个 新 的 
变量 ， 并 保留 原来 的 变量 不 变 ; 而 replace 命令 则 是 利用 现 有 变量 生成 一 个 新 的 变量 蔡 换 原来 
的 变量 。 下 面 我 们 就 用 实例 的 方式 来 讲解 一 下 这 两 个 重要 命令 的 应 用 。 


1.3.2 ”相关 数据 来 源 


Ea 下 载 资源 :\ideo\chap01\… 


下 载 资源 :\samplevchapOl\ 正 文 \ 案 例 1.2.dta 


【 例 1.2】 我 国 2009 年 各 地 区 的 就 业 人 口 以 及 工资 总 额 数据 如 表 1.2 所 示 。 请 使 用 Stata 
命令 进行 操作 : (1) 试 生成 新 的 变量 来 描述 各 地 区 的 平均 工资 情况 ，(2) 试 生成 平均 工资 变 
量 来 蔡 代 原 有 的 工资 总 额 变量 (3) 对 生成 的 平均 工资 变量 数据 均 做 除 以 10 的 处 理 ， (4) 
对 就 业 人 口 变量 进行 对 数 平滑 处 理 ， 从 而 产生 新 的 变量 。 

表 1.2 我 国 2009 年 各 地 区 的 就 业 人 口 及 工资 总 额 


地 区 工资 总 额 / 千 元 
北京 6193 478 354 562 114 
天 津 2016 501 88 650 773 
河北 139 819 814 
山西 3 857 975 107 304 259 

内 蒙古 2458 276 76 181 130 
青海 506 254 16361 377 
宁夏 581 039 19 536 870 

新 疆 2494 187 71 506 764 


1.3.3 Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 3 个 变量 ， 分 别 是 地 
区 、 就 业 人 口 、 工 资 总 额 。 我 们 把 地 区 变量 设 定 为 region， 把 就 业 人 口 变量 设 定 为 people， 把 


\ NANNNNNNNNNNNNRNARRNGRRRRIRLIAN 


NANN 
工资 总 额 变 量 设 定 为 sumwage， 变 量 类 型 及 长 度 采 取 系 统 默 认 方 式 ， 然 后 录入 相关 数据 。 相 
关 操作 我 们 在 1.2 节 中 已 有 详细 讲述 。 录 入 完成 后 ， 数 据 如 图 1.8 所 示 。 
先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 骤 如 下 : 
加 进入 Stata 14.0， 打 开 相 关 数 据 文件 ， 弹 出 如 图 1.9 所 示 的 主 界面 。 


DamediorEdu- 医 mLzdal 一 一 一 生生 二 | 本 


ApoE 


图 1.8 案例 1.2 数据 图 1.9 主 界面 
加 在 主 界面 的 “Command” 文 本 框 中 输入 如 下 操作 命令 并 按键 盘 上 的 回 车 键 进 行 确认 。 


。 ”generate avwage= sumwage/ people: 本 命令 的 含义 是 生成 新 的 变量 来 描述 各 地 区 的 平 
均 工 资 情况 。 

。 replace sumwage= sumwage/ people: 本 命令 的 含义 是 生成 平均 工资 变量 来 替代 原 有 的 
工资 总 额 变 量 。 

e ”replace sumwage= sumwage/ 10: 本 命令 的 含义 是 对 生成 的 平均 工资 变量 数据 均 做 除 以 
10 的 处 理 。 

。 ”gen lpeople=ln( people): 本 命令 的 含义 是 对 就 业 人 口 变 量 进行 对 数 平 滑 处 理 ， 从 而 产 
生 新 的 变量 。 

设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


1.3.4 结果 分 析 


选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 1.10 所 示 的 avwage 数据 。 

选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 1.11 所 示 的 sumwage 数据 ， 等 于 总 工资 除 以 总 职工 数 。 
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图 1.10 “avwage” 数 据 图 1.11 平均 工资 


选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 1.12 所 示 的 sumwage 数据 ， 即 前 面 生成 的 平均 工资 数据 除 以 10。 

选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 1.13 所 示 的 lpeople 数据 。 它 是 针对 people 数据 取 的 对 数值 。 


[oe sc Wd] Dom ey md Wl 
Fle Edit View Data Tools Fle Ed View Data Took 
ELE YE 从 加 四 色 梧 对 了 : 
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A Nome Label BName Label 
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， on amwage amwage | 
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了 | variables (Snap YM Variables | Snapsho 
[Properties D [一 本 
a” [variables - Variables - 
号 | Name Samuage Name Tpeopie 
0 Label 司 Label | 
四 Type double Type float 
fomat %aog Format ao 
Value label Valuelabel 
™ Notes 日 Notes 副 
eady Vars 4 Order Dataset Obs:31 Fiter Of NodeEdi 2 NUM a Obs 3l riter Off _ Moder di AF NUM 


图 1.12 平均 工资 除 以 10 图 1.13 ”对 就 业 人 口 进行 对 数 平滑 处 理 
1.3.5 “案例 延伸 


在 上 面 的 案例 中 ， 我 们 用 到 了 代数 运算 符 “/”。 在 Stata 14.0 中 ， 我 们 可 以 使 用 的 代数 运 
算 符 如 表 1.3 所 示 。 


表 1.3 代数 运算 符 
代数 运算 符 | 含义 | 代数 运算 符 | 含义 | 代数 运算 符 | 含义 | 代数 运算 符 | 含义 | 代数 运算 符 | 含义 


在 上 面 的 案例 中 ， 我 们 也 用 到 了 自然 对 数 函 数 In( 变 量 )。 在 Stata 14.0 中 ， 我 们 经 常 使 用 
的 函数 如 表 1.4 所 示 。 
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表 1.4 函数 


函数 命令 函数 命令 | 表示 含义 
abs(x) 平方 根 函 数 exp(x) 指数 函数 
i 余弦 函数 正切 函数 


asin(x) 反正 弦 函 数 acos(x) 反 余 弦 函 数 反正 切 函数 

trunk(x) x 的 整数 部 分 logit(x) x 的 对 数 比 率 total(x) | x 的 移动 合计 
mod(xy) xy 的 余数 sign(x) 符号 函数 round(x) x 的 四 舍 五 入 整数 
atanh(x) floor(x) 小 于 等 于 x 的 最 大 整数 | ceil(x) 小 于 等 于 x 的 最 小 整数 


1.4 ”分 类 变量 和 定 序 变量 的 基本 操作 
1.4.1 分 类 变量 和 定 序 变量 概述 


在 很 多 情况 下 ， 我 们 会 用 到 分 类 变量 (虚拟 变量 ) 的 概念 ， 分 类 变量 (虚拟 变量 ) 的 用 
途 是 通过 定义 值 的 方式 将 观测 样本 进行 分 类 。 例如 , 根据 数据 某 一 变量 特征 的 不 同 把 观测 样本 
分 为 3 类， 就 需要 建立 3 个 分 类 变量 A、B、C， 如 果 观 测 样本 属于 A 类 ， 其 对 应 的 分 类 变量 
A 的 值 就 为 1， 对 应 的 分 类 变量 B 和 C 的 值 就 为 0。 定 序 变量 的 用 途 是 根据 数据 的 数值 大 小 将 
数据 分 到 几 个 确定 的 区 间 , 其 在 广义 上 也 是 一 种 分 类 。 下 面 我 们 就 用 实例 的 方式 来 讲解 一 下 分 
类 变量 和 定 序 变量 的 基本 操作 。 


1.4.2 ”相关 数据 来 源 


下 载 资源 :\video\chap01\… 


下 载 资源 :\samplevchapOl\ 正 文 \ 案 例 1.3.dta 


【 例 1.3 了 某国 际 知名 足球 裁判 自 执法 以 来 在 各 地 区 的 执 赛 信息 如 表 1.5 所 示 。 试 使 用 Stata 
14.0 对 数据 进行 以 下 操作 : 〈1) 试 生成 新 的 分 类 变量 来 描述 比赛 级 别 ，《〈2) 试 生 成 新 的 定 序 
变量 对 场 数 进行 定 序 ， 分 到 3 个 标志 区 间 。 
表 1.5 某国 际 知名 足球 裁判 执 赛 情况 


地 点 场 数 比赛 级 别 
江苏 20 省 级 
浙江 14 省 级 
安徽 4 省 级 
福建 3 省 级 
江西 5 省 级 
山东 2 省 级 
美国 10 国家 级 
日 本 19 国家 级 
英 32 国家 级 
挪威 3 国家 级 
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1.4.3 ”Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 3 个 变量 ， 分 别 是 地 
点 、 场 数 以 及 比赛 级 别 。 我 们 把 地 点 变量 设 定 为 place， 把 场 数 变量 设 定 为 number， 把 比赛 级 
别 变量 设 定 为 type， 变 量 类 型 及 长 度 采 取 系 统 默认 方式 ， 然 后 录入 相关 数据 。 相 关 操 作 我 们 在 
1.2 节 中 已 有 详细 讲述 。 录 入 完成 后 数据 如 图 1.14 所 示 。 
[pa taor ay - Bon 2] | 


Fie Et View Data Tooks 
区 回 吧 习 色 国 竺 了: 
placell] 


一 2 -~—— 

ee 
图 1.14 案例 1.3 数 据 

先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 又 如 下 : 

加 进入 Stata 14.0， 打 开 相 关 数据 文件 ， 弹 出 如 图 1.15 所 示 的 主 界面 。 

在 主 界面 的 “Command” 文 本 框 中 输入 操作 命令 并 按键 盘 上 的 回 车 键 进行 确认 。 


。 ”tabulate type,generate(type): 本 命令 的 含义 是 生成 新 的 分 类 变量 来 描述 比赛 级 别 。 
。 ”generate numberl=autocode(number3,1,25): 本 命令 的 含义 是 生成 新 的 定 序 变量 对 场 数 
进行 定 序 ， 分 到 3 个 标志 区 间 。 


1.15 主 界面 
贺 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 
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1.4.4 结果 分 析 


图 1.16 是 生成 新 的 分 类 变量 来 描述 比赛 级 别 的 结果 。 


~ tabulate type,generate (type) 


Province, 

territory 
or nation Freq. Percent Com. 
Province 6 60.00 60.00 
Nation 4 40.00 100.00 


图 1.16 ”描述 比赛 级 别 的 结果 


选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 1.17 所 示 的 生成 的 分 类 数据 “typel1” 和 “type2”。 

选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 1.18 所 示 的 生成 的 变量 “numberl ”数据 。 该 变量 将 “number” 的 取 值 区 间 划 分 成 等 宽 
的 3 组 。 图 1.18 是 生成 新 的 定 序 变量 对 场 数 进行 定 序 ， 分 到 3 个 标志 区 间 的 结果 。 
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图 1.17 生成 新 的 分 类 变量 图 1.18 对 场 数 进行 定 序 


1.4.5 案例 延伸 


以 本 节 中 的 案例 为 基础 ， 试 生成 新 的 分 类 变量 按 数值 大 小 对 场 数 进行 4 类 定 序 。 

操作 命令 应 该 为 : 

sort number 

generate number2=group(4) 

在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 选 择 “Data”| “Data Editor”| “Data 
Editor(Browse) ”命令 ， 进 入 数据 查看 界面 ， 可 以 看 到 如 图 1.19 所 示 的 生成 的 变量 “number2” 
数据 。 该 变量 将 “number” 的 取 值 按 大 小 分 成 了 4 个 序列 。 


图 1.19 对 场 数 进行 4 类 定 序 


1.5 数据 的 基本 操作 


1.5.1 数据 的 基本 操作 概述 


在 对 数据 进行 分 析 时 ， 可 能 会 遇 到 需要 针对 现 有 的 数据 进行 预 处 理 的 情况 。 在 本 节 中 ， 
我 们 将 用 实例 讲解 常用 的 几 种 处 理 数据 的 操作 , 包括 对 数据 进行 长 短 变换 、 把 字符 串 数 据 转换 
成 数值 数据 、 生 成 随机 数 等 。 在 下 一 节 中 ， 我 们 还 将 利用 实例 介绍 如 何 定 义 数据 子 集 。 


1.5.2 ”相关 数据 来 源 


B= 下 载 资源 :Wideo\chap01\… 


下 载 资源 :\sample\chap01\ 正 文 \ 案 例 1.4.dta 


【 例 1.4】 长 江 集团 是 一 家 国内 大 型 连锁 销售 钢管 的 公司 ， 该 集团 一 直 在 北京 、 天 津 、 河 
北 、 山 西 、 内 蒙古 等 地 展开 经 营 活动 ，2008 一 2010 年 在 上 述 地 区 的 开店 情况 如 表 1.6 所 示 。 试 
通过 操作 Stata 14.0 完成 以 下 工作 : 

(1) 将 数据 进行 长 短 变换 。 

(2) 将 数据 变换 回来 ， 并 把 地 区 字符 串 变 量 转换 成 数值 数据 。 

(3) 生成 一 个 随机 变量 ， 里 面包 含 0~1 的 15 个 随机 数据 。 


表 1.6 长 江 集团 在 2008 一 2010 年 的 开店 情况 
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1.5.3 Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 4 个 变量 ， 分 别 是 地 
区 、2008 年 店 数 、2009 年 店 数 以 及 2010 年 店 数 。 我 们 把 地 区 变量 设 定 为 region， 把 2008 年 
店 数 变量 设 定 为 naumber2008， 把 2009 年 店 数 变量 设 定 为 number2009， 把 2010 年 店 数 变量 设 
定 为 number2010， 变 量 类 型 及 长 度 采 取 系 统 默认 方式 ， 然 后 录入 相关 数据 。 相 关 操 作 在 第 1.2 
节 中 已 有 详细 讲述 。 录 入 完成 后 ， 数 据 如 图 1.20 所 示 。 


7 = 
Ready length:14 Vars:4 Order Dataset Obs:5 Fikter:Off Mode:Edit CAE NUM a 


图 1.20 案例 1.4 数 据 
先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 又 如 下 : 
加 进入 Stata 14.0， 打 开 相 关 数 据 文件 ， 弹 出 如 图 1.21 所 示 的 主 界面 。 


3 Sam/MP 14 0 -PASratatdtt DI RR Mampe hp ENR 4 a 
File Edit Data Graphics Siatistics User Wndow Help 


区 回 商品 寺 .由 _ 国 - 必 卫 局 9 虽 
Er Be 


图 1.21 主 界面 


在 主 界面 的 “Command” 文 本 框 中 输入 操作 命令 并 按键 盘 上 的 回 车 键 进行 确认 。 对 
应 的 命令 分 别 如 下 : 
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。 reshape long number,i( region) j(year): 本 命令 的 含义 是 将 数据 进行 长 短 变 换 。 

® reshape wide number,i( region) j(year) 。 

。 encode region,gen(regi): 本 命令 的 含义 是 将 数据 变换 回来 并 把 地 区 字符 事变 量 转换 
成 数值 数据 。 

e Clear. 

® setobs15, 

e ”generate suiji=uniform(): 本 命令 的 含义 是 生成 一 个 随机 变量 ， 里 面包 含 0~1 的 15 个 
随机 数据 。 


1.5.4 结果 分 析 


图 1.22 是 将 数据 进行 长 短 变 换 的 结果 。 


。 reshape long numbervi( region) j (year) 
(note: j = 2008 2009 2010) 


Data 


Number of obs. 
Number of variables 
j variable (3 values) 
xij variables: 
number2008 number2009 number2010 


图 1.22 将 数据 进行 长 短 变换 的 结果 
选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 1.23 所 示 的 变换 后 的 数据 。 图 1.24 是 将 数据 变换 回来 并 把 地 区 字符 串 变量 转换 成 数值 
数据 的 结果 。 


[or ear ro rr ee 


| File Edit View Dara Tools 
| 访 回 是 名 多国 对 了 了 : 
region[1] Beijing 
二 ables 可 
A Hihervariables here 
回 Name Label 
region 
eyear 
Wnumber 
昔 Variables | Snapshot 
Properties a| 
Bvarables | 
Name region 
Label 
Type str14 局 
Format %l4s 
| | 
Ready Length 14 Vars:3 Order Dataset Obs:15 Filter Off Mode; Edit CAP NUM 2 


1.23 ”进行 长 短 变 换 


这 


\\AA\\A\\\\NN \ \ 
\N NN \ 
NANN \ 
AAAAAAAAAAAA 
ISSN 


-。 reshape wide number,i( region) j(year) 
(note: j = 2008 2009 2010) 


long 


%S 


(dropped) 


xij variables: 
number2008 number2009 number2010 


图 1.24 转换 成 数值 数据 的 结果 
选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 


到 如 图 1.25 所 示 的 变换 后 的 数据 。 
在 将 数据 变换 回来 以 后 ， 输 入 第 2 条 命令 ,通过 选择 “Data”|“Data Editor”|“Data 
Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 如 图 1.26 所 示 。 


| Dat Editor (Ed0 -dao T= = | 
File Edit View Data Took Fie Edt View Data Took | 
区 加 台电 多加 壬 了 了: 号 回 品 色色 本寺 了 。 
egionDl eing 
ee 本 
mm 四 Fter variablesh 
Pl ‖ 
站 region 
加 Be number2008 
BR number 
| 2 number2010 
variobles ES 
9 
日 variables - 
Name en 
Label 
Type ng 
Fomat ld 
Voue bel ‘Valve label regi 
Note eNotes au 
|Ready Lengthe 14 Vars: 4 Order: Datet Obs:5 Fiter OH Mode Fhit CA NUM -4 | Varss order Datavet Ob 5 Fier Of Mode Ei EAP NUM a 
图 1.25 变换 后 的 数据 图 1.26 查看 数据 


选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 1.27 所 示 的 生成 后 的 随机 数据 。 


[ooo eonor edd -untied 


34887171 


eady Vars:1 order paraser obs15 Filter Off Mode:Edit Ca NUM -| 


1.27 ”随机 数据 
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1.5.5 ”案例 延伸 


在 定义 随机 数据 时 , 系统 命令 默认 的 区 间 范 围 即 是 [0,1], 那么 如 何 实现 自由 取 值 呢 ?” 例 如 ， 
从 [9,18] 之 间 随 机 取出 15 个 数据 。 

操作 命令 应 该 相应 地 修改 为 如 下 形式 : 

Clear 


set obs 15 
generate suiji=9+9*uniform() 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 的 结果 如 图 1.28 所 示 。 
那么 如 何 选取 整数 呢 ? 

操作 命令 应 该 相应 地 修改 为 如 下 形式 : 

clear 


set obs 15 
generate suiji=9+trunc(9*uniform()) 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 的 结果 如 图 1.29 所 示 。 


Fle Fdlt View Data Tooks 
本 昌 虽 双 梧 3 了 . 
ou 卫 


CR Os 15 Milter Of 


eady Vars: ordec Dataset Obs: 15 


图 1.28 随机 取出 15 个 数据 图 1.29 取 整 
1.6 定义 数据 的 子 集 
1.6.1 定义 数据 的 子 集 概述 


在 很 多 情况 下 ， 现 有 的 Stata 数据 达 不 到 分 析 要 求 ， 我 们 需要 截取 出 数据 的 一 部 分 进行 分 
析 ， 或 者 删除 不 需要 进入 分 析 范 围 的 数据 ， 这 时 我 们 就 需要 用 到 Stata 的 定义 数据 子 集 功能 。 
在 本 节 中 ， 我 们 将 通过 实例 的 方式 讲述 定义 数据 子 集 的 基本 操作 。 
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1.6.2 ”相关 数据 来 源 


【 例 1.5】 试 通过 操作 案例 1.5.dta 完成 以 下 工作 。 

(1) 列 出 第 3 条 数据 。 

(2) 列 出 第 1~3 条 数据 。 

(3) 列 出 变量 值 “shangjiao” 最 小 的 两 条 数据 。 

(4) 列 出 变量 值 “year” 大 于 2005 的 数据 。 

(5) 列 出 变量 值 “year” 大 于 2007 且 变 量 值 “shangjiao” 大 于 865 的 数据 。 
(6) 删除 第 3 条 数据 。 

(7) 删除 变量 值 “year” 等 于 2005 的 数据 。 

(8) 删除 变量 值 “year” 大 于 2005 且 变 量 值 “shangjiao” 大 于 865 的 数据 。 


1.6.3 ”Stata 分 析 过 程 


分 析 步 又 如 下 : 


图 1.30 主 界面 


在 主 界面 的 “Command” 文 本 框 中 输入 操作 命令 并 按键 盘 上 的 回 车 键 进行 确认 。 对 
应 的 命令 如 下 。 


。 listin 3: 本 命令 的 含义 是 列 出 第 3 条 数据 。 
elistin 1/3: 本 命令 的 含义 是 列 出 第 1~3 条 数据 。 
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e sort shangjiao list year shangjiao shenjiao in 1/2: 本 命令 的 含义 是 列 出 变量 值 “shangjiao” 
最 小 的 两 条 数据 。 

e。 “listif year>2005: 本 命令 的 含义 是 列 出 变量 值 “year” 大 于 2005 的 数据 。 

® listif year>2007 & shangjiao>865: 本 命令 的 含义 是 列 出 变量 值 “year” 大 于 2007 且 变 
量 值 “shangjiao” 大 于 865 的 数据 。 

。 drop in 3: 本 命令 的 含义 是 删除 第 3 条 数据 。 

。 drop fyear 一 2005: 本 命令 的 含义 是 删除 变量 值 “year” 等 于 2005 的 数据 。 

® drop 证 year>2005 & shangjiao>865: 本 命令 的 含义 是 删除 变量 值 “year” 大 于 2005 且 
变量 值 “shangjiao” 大 于 865 的 数据 。 


图 1.31 是 列 出 第 3 条 数据 的 结果 。 
图 1.32 是 列 出 第 1~3 条 数据 的 结果 。 


year shangj~o shenjiao 


year shangj~o shenjiao 
2000 572 516 


2001 646 514 
2002 715 509 


1.31 分 析 结 果 1 图 1.32 分 析 结 果 2 


图 1.33 是 列 出 变量 值 “shangjiao” 最 小 的 两 条 数据 结果 。 
图 1.34 是 列 出 变量 值 “year” 大 于 2005 的 数据 结果 。 


.~ sort shangjiao ~ 1ist if year>2005 


. list year shangjiao shenjiao in 1/2 
year shangj~o shenjiao 


year shangj~o shenjiao 


2000 S92 516 
2001 646 514 


图 1.33 ”分析 结 果 3 图 1.34 分 析 结 果 4 
图 1.35 是 列 出 变量 值 “year” 大 于 2007 且 变 量 值 “shangjiao ”大 于 865 的 数据 结果 。 
图 1.36 是 删除 第 3 条 数据 的 结果 。 


» list if year>2007 & shangjiao>865 


year shangj~o shenjiao 


“rop' in 3 
10. | 2009 870 848 (1 observation deleted) 


图 1.35 分 析 结 果 5 图 1.36 分 析 结 果 6 
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图 1.37 是 删除 变量 值 “year” 等 于 2005 的 数据 结果 。 
图 1.38 是 删除 变量 值 “year” 大 于 2005 且 变 量 值 “shangjiao” 大 于 865 的 数据 结果 。 


。 drop if year==2005 
(1 observation deleted) 


。drop if year>2005 & shangjiao>865 


(1 observation deleted) 


图 1.37 分 析 结 果 7 图 1.38 分 析 结 果 8 
1.6.5 ”案例 延伸 


我 们 在 上 述 的 Stata 命令 中 用 到 了 Stata 中 的 关系 运算 符 和 逻辑 运算 符 。Stata 14.0 中 共 支 
持 6 种 关系 运算 符 和 3 种 逻辑 运算 符 ， 如 表 1.7 和 表 1.8 所 示 。 


表 1.7 关系 运算 符 


关系 运算 符 含义 关系 运算 符 含义 关系 运算 符 含义 
EE | 和 jl= ES 
小 于 等 于 
表 1.8 逻辑 运算 符 
逻辑 运算 符 含义 逻辑 运算 符 含义 逻辑 运算 符 含义 
I |# | 


1.7 本 章 习 是 
(1) 表 1.9 记录 的 是 两 家 公司 近 些 年 的 招聘 员工 数据 。 试 创建 Stata 格式 的 数据 文件 并 保存 。 
表 1.9 两 家 公司 近 些 年 的 招聘 员工 数据 


(2) 某 连 锁 公 司 在 全 国 各 地 区 的 销售 人 员 数 量 以 及 销售 总 额 数据 如 表 1.10 所 示 。 请 使 用 
Stata 命令 进行 操作 : QD 试 生成 新 的 变量 来 描述 各 地 区 的 人 均 销 售 额 情况 ，@ 试 生成 人 均 销 售 
额 变量 来 替代 原 有 的 销售 总 额 变量 ，@ 对 生成 的 人 均 销 售 额 变量 数据 均 做 除 以 10 的 处 理 ;，@ 
对 销售 人 员 数 量变 量 进行 对 数 平滑 处 理 ， 从 而 产生 新 的 变量 。 
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表 1.10 某 连 锁 公司 在 全 国 各 地 区 的 销售 人 员 数 量 以 及 销售 总 额 数据 


地 区 销售 人 员 数 量 / 人 销售 总 额 /万 元 
北京 50 250 000 

天 津 30 90 000 

河北 300 000 

山西 420 000 

内 蒙古 180 000 

青海 40 80 000 

宁夏 20 20 000 

新 疆 25 37 500 


(3) 某 当 红歌 星 近 两 年 来 在 各 地 举办 演唱 会 的 情况 如 表 1.11 所 示 。 试 使 用 Stata 14.0 
对 数据 进行 以 下 操作 :@ 试 生成 新 的 分 类 变量 来 描述 演唱 会 类 型 ，@ 试 生成 新 的 定 序 变量 
对 场 数 进行 定 序 ， 分 到 3 个 标志 区 间 。@ 试 生成 新 的 分 类 变量 ， 按 数值 大 小 对 场 数 进行 4 
类 定 序 。 


表 1.11 某 当 红歌 星 最 近 两 年 来 在 各 地 举行 演唱 会 情况 


地 点 场 数 演唱 会 级 别 
北京 中 型 
浙江 中 型 
天 当 让 型 
本 于 让 型 
江苏 让 型 
由 东 中 型 
美国 大 型 
自 本 和 
二 A 
新 加 下 和 


(4) 某 足球 俱乐部 以 培养 优秀 年 轻 球员 而 出 名 ， 当 红 的 $ 名 明星 队员 在 2008 一 2010 年 
赛季 的 进 球 情况 如 表 1.12 所 示 。 试 通过 操作 Stata 14.0 完成 以 下 工作 

巴 将 数据 进行 长 短 变 换 。 

加 将 数据 变换 回来 ， 并 把 球员 名 称 字符 串 变 量 转换 成 数值 数据 。 

@ 生 成 一 个 随机 变量 ， 里 面包 含 0~1 的 15 个 随机 数据 。 


表 1.12 某 足球 俱乐部 的 5 名 明星 队员 在 2008 一 2010 年 赛季 的 进 球 情况 


(5) 试 通过 操作 案例 1.5.dta 完成 以 下 工作 : 
@ 列 出 第 3 条 数据 。 


18 


第 2 章 Stata 图 形 绘制 


众所周知 ， 图 形 是 对 数据 分 析 结 果 以 及 其 他 综合 分 析 一 种 很 好 的 展示 方式 。 制 图 功能 一 直 是 
Stata 的 强项 ， 也 是 许多 软件 使 用 者 选择 该 软件 进行 数据 分 析 的 重要 理由 之 一 。 经 过 Stata 公司 编 
程 人 员 的 长 期 不 懈 努 力 ,制图 功能 在 Stata 14.0 版 本 中 已 经 非常 完善 ， 比 较 以 前 的 版 本 ， 不 仅 形成 
图 形 的 能 力 得 到 增强 ， 图 形 输 出 的 外 观 和 选择 也 得 到 了 大 大 改进 。 限 于 篇 幅 ， 本 章 将 介绍 用 户 最 
常用 的 几 种 绘图 功能 。 软件 使 用 者 常用 的 制图 功能 有 直方 图 、 散 点 图 、 曲 线 标 绘图 、 连 线 标 绘图 、 
箱 图 、 饼 图 、 条 形 图 、 点 图 等 。 下 面 我 们 一 一 介绍 这 几 种 制图 功能 在 实例 中 的 应 用 。 


2.1 实例 一 一 一 直方 
2.1.1 直方 图 的 功能 与 意义 


直方 图 〈Histogram) 又 称 柱状 图 ， 是 一 种 统计 报告 图 ， 由 一 系列 高 度 不 等 的 纵向 条 纹 或 
线段 表示 数据 分 布 的 情况 。 一 般 用 横 轴 表示 数据 类 型 ， 纵 轴 表 示 分 布 情况 。 通 过 绘制 直方 图 ， 
可 以 较为 直观 地 传递 有 关 数 据 的 变化 信息 , 使 数据 使 用 者 能 够 较 好 地 观察 数据 波动 的 状态 , 使 
数据 决策 者 能 够 依据 分 析 结 果 确 定 在 什么 地 方 需要 集中 力量 改进 工作 。 


2.1.2 ”相关 数据 来 源 


P| ivieeochapoa 


酬 下 载 资源 :\sample\chap02\ 正 文 \ 案 例 2.1.dta 


【 例 2.1】 为 了 解 我 国 各 地 区 技工 学 校 的 建设 情况 ， 某 课题 组 搜集 整理 了 2009 年 我 国 29 
个 省 市 的 技工 学 校 数量 的 数据 ， 如 表 2.1 所 示 。 试 通过 绘制 直方 图 来 直观 地 反映 我 国 技工 学 校 
的 建设 情况 。 
表 2.1 2009 年 我 国 29 个 省 市 技工 学 校 的 数量 


0 


\ 
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( 续 表 ) 
地 区 技工 学 校 个 数 
青海 18 
宁夏 20 
新 疆 60 | 


2.1.3 Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 两 个 变量 ， 分 别 是 地 
区 和 数量 。 我 们 把 地 区 变量 设 定 为 region， 把 数量 变量 设 定 为 number， 变 量 类 型 及 长 度 采 取 


系统 默认 方式 ， 然 后 录入 相关 数据 。 相 关 操 作 我 们 在 第 1 章 中 已 有 详细 讲述 。 录 入 完成 后 ， 数 
据 如 图 2.1 所 示 。 


2 Over Dutmet Obe 29 Phor ON Mode En 2 NUM 


图 2.1 案例 2.1 数 据 
先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 又 如 下 : 


进入 Stata 14.0， 打 开 相 关 数 据 文件 ， 弹 出 主 界面 。 
在 主 界面 的 “Command” 文 本 框 中 输入 命令 : histogram number,Frequency。 
国 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


2.1.4 ”结果 分 析 


上 述 操作 结束 后 ，Stata 14.0 将 弹出 如 图 2.2 所 示 的 直方 图 。 


图 2.2 直方 图 1 


21 


RS 


通过 观察 直方 图 ， 可 以 比较 轻松 地 看 出 我 国 的 技工 学 校 建设 情况 ， 某 省 市 拥有 技工 学 校 
的 数量 和 与 之 处 于 同一 区 间 省 市 的 数量 是 负 相 关 的 , 也 就 是 说 , 拥有 技工 学 校 数量 较 多 的 省 市 
较 少 ， 拥 有 技工 学 校 数量 较 少 的 省 市 较 多 。 


2.1.5 “案例 延伸 


上 述 的 Stata 命令 比较 简洁 ， 分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 


1. 延伸 1: 给 图 形 增加 标题 
人 那么 操作 命令 就 应 该 相应 地 修改 为 : 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 2.3 所 示 。 


案例 2.1 结 果 


0 名 100 150 200 250 
Number 


图 2.3 直方 图 2 
2. 延伸 2: 给 坐标 轴 增 加 数值 标签 并 设 定 间距 


例如 ， 我 们 要 在 延伸 1 的 基础 上 对 X 轴 添 加 数值 标签 ， 取 值 为 0-300， 间 距 为 5， 对 了 
轴 添 加 数值 标签 ， 取 值 为 0~10， 间 距 为 1， 人 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 2.4 所 示 。 


案例 2.1 结 果 


0 25 50 75 10 125 150 175 200 225 250 275 300 
number 


2.4 直方 图 3 
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2.2 ”实例 二 一 一 散 点 图 


2.2.1 散 点 图 的 功能 与 意义 


作为 对 数据 进行 预 处 理 的 重要 工具 之 一 ， 散 点 图 (Scatter Diagram ) 功能 深 受 专家 、 学 者 
们 的 喜爱 。 散 点 图 的 简要 定义 就 是 点 在 直角 坐标 系 平面 上 的 分 布 图 。 研 究 者 对 数据 制作 散 点 图 
的 主要 出 发 点 是 通过 绘制 该 图 来 观察 某 变量 随 另 一 变量 变化 的 大 致 趋势 , 据 此 可 以 探索 数据 之 
间 的 关联 关系 ， 甚 至 选择 合适 的 函数 对 数据 点 进行 拟 合 。 


2.2.2 ”相关 数据 来 源 


下 载 资源 :\ideo\chap02\… 


下 载 资源 :\sample\chap02\ 正 文 \ 案 例 2.2.dta 


【 例 2.2】 为 了 解 某 高 校 新 入 学 男生 的 身高 及 体重 情况 ， 某 课题 组 随机 抽取 了 该 校 新 入 学 
的 42 名 大 一 新 生 的 身高 及 体重 数据 ， 如 表 2.2 所 示 。 试 通过 绘制 散 点 图 来 直观 地 反映 这 些 学 
生 的 身高 、 体 重组 合 情 况 。 


表 2.2 某 高 校 的 42 名 大 一 新 生 的 身高 及 体重 


编号 身高 /cm 体重 /kg 
1 176 67 
2 185 77 
3 177 I 
4 59 
3 174 64 
40 173 66 
41 172 63 
42 174 60 


2.2.3 ”Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 两 个 变量 ， 分 别 是 身 
高 和 体重 。 我 们 把 身高 变量 设 定 为 SG, 把 体重 变量 设 定 为 TZ， 变 量 类 型 及 长 度 采取 系统 默认 
方式 ， 然 后 录入 相关 数据 。 相 关 操作 我 们 在 第 1 章 中 已 有 详细 讲述 。 录 入 完成 后 ， 数 据 如 图 
2.7 所 示 。 
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图 2.7 案例 2.2 数据 


先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 骤 如 下 : 


加 进入 Stata 14.0， 打 开 相 关 的 数据 文件 ， 弹 出 主 界面 。 
加 在 主 界面 的 “Command” 文 本 框 中 输入 命令 : 


graph twoway scatter SG TZ 


设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


上 述 操作 结束 后 ，Stata 14.0 将 弹出 如 图 2.8 所 示 的 散 点 图 。 


T T T 
加 65 加 75 80 
到 


图 2.8 散 点 图 1 


通过 观察 散 点 图 ， 可 以 比较 轻松 地 看 出 这 些 学 生 的 身高 及 体重 的 组 合 情 况 。 我 们 发 现 ， 
大 部 分 学 生 的 身高 处 于 170cm~180cm 之 间 ， 身 高 与 体重 之 间 不 存在 明显 的 相关 关系 ， 很 多 体 
重 差别 较 大 的 学 生 身高 几乎 无 差别 ， 同 时 有 很 多 体重 相近 的 学 生 之 间 身 高 差别 很 大 。 


2.2.5 ”案例 延伸 
上 述 的 Stata 命令 比较 简洁 ， 分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 
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1， 延 伸 1: 给 图 形 增加 标题 、 给 坐标 轴 增 加 数值 标签 并 设 定 间距 、 显 示 坐 标 轴 的 刻度 
例如 ， 我 们 要 给 图 形 增加 标题 的 名 称 “案例 2.2 结果 ”， 对 X 轴 添 加 数值 标签 ， 取 值 为 


56~80， 间 距 为 2， 对 立轴 添加 数值 标签 ， 取 值 为 130~190， 间 距 为 10， 对 YY 轴 添 加 刻度 ， 间 
距 为 5， 那 么 操作 命令 就 应 该 相应 地 修改 为 


graph twoway scatter SG TZ,title(" 案 例 2.2 结果 ") 
xlabel(56(2)80) ylabel(150(10)190) ytick(150(5)190) 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 2.9 所 示 。 
2. 延伸 2: 控制 散 点 标志 的 形状 


例如 ， 我 们 要 在 延伸 1 的 基础 上 使 散 点 图 中 散 点 标志 的 形状 变 为 实心 萎 形 ， 那 么 操作 命 
令 就 应 该 相应 地 修改 为 : 


graph twoway scatter SG T2,title(" 案 例 2.2 结果 ") 
xlabel (56(2)80) ylabel(150(10)190) ytick(150(5)190) msymbol (D) 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 2.10 所 示 。 


stata 统 计 分 析 与 行业 应 用 案例 详解 第 2 版 ) 
\\NA\ \\\N\ 


案例 2.2 结 果 案例 2.2 结 果 
8 
。 . 。 
。 . 机 
避 5 本 . . 
a 人 : 四 9 多 
， : 
8R 一 : 8 Te 4 
8 5 . * 
引 涡 0B 10 7 1 18 60 有 
下 TZ 
图 2.9 散 点 图 2 图 2.10 散 点 图 3 


在 上 面 的 例子 中 ， 命 令 中 的 D 代表 的 是 实心 菱形 。 散 点 标志 的 其 他 常用 可 选 形状 与 对 应 
命令 缩写 如 表 2.3 所 示 。 


表 2.3 形状 与 对 应 命令 


Ea EE EE E77 EE ETT 
Th 三 角 
[7 | 实心 三 角 
3. 延伸 3: 控制 散 点 标志 的 颜色 
例如 ， 我 们 要 在 延伸 2 的 基础 上 进行 改进 ， 使 散 点 标志 的 颜色 变 为 黄色 ， 那 么 操作 命令 
就 应 该 相应 地 修改 为 : 


graph twoway scatter SG TZ,title(" 案 例 2.2 结果 ") 
xlabel (56(2) 80) ylabel (150 (10)190) ytick(150(5)190) msymbol (D) mcolor (yellow) 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 2.11 所 示 。 


dh | se | 
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案例 2.2 结 果 


图 2.11 散 点 图 4 
更 多 颜色 选择 ， 请 在 命令 窗口 输入 命令 : 
help colorstyle 
然后 按 回 车 键 进行 确认 即 可 选择 。 


2.3 ”实例 三 一 一 曲线 标 绘图 


2.3.1 ”曲线 标 绘图 的 功能 与 意义 


从 形式 上 看 ， 曲 线 标 绘图 与 散 点 图 的 区 别 就 是 一 条 线 来 替代 散 点 标志 ， 这 样 做 可 以 更 加 
清晰 直观 地 看 出 数据 走势 ， 但 却 无 法 观察 到 每 个 散 点 的 准确 定位 。 从 用 途上 看 ， 曲 线 标 绘图 常 
用 于 时 间 序 列 分 析 的 数据 预 处 理 ， 用 来 观察 变量 随时 间 的 变化 趋势 。 此 外 ， 曲 线 标 绘图 可 以 同时 
反映 多 个 变量 随时 间 的 变化 情况 ， 所 以 ， 曲 线 标 绘图 的 应 用 范围 还 是 非常 广泛 的 。 


2.3.2 ”相关 数据 来 源 


下 下 载 资源 :videovchap02v… 


| 下 载 资源 :\sample\chap02\ 正 文 \ 案 例 2.3.dta 


【 例 2.3】 某 足球 教练 准备 执教 一 支 新 球 队 ， 在 执教 前 对 拟 执教 球 队 的 过 往 赛季 进 球 数据 
进行 了 搜集 整理 ， 如 表 2.4 所 示 。 试 通过 绘制 曲线 标 绘图 来 分 析 研 究 该 球 队 的 进 球 情况 变化 趋 
势 以 及 对 队 内 第 1 射手 〈 进 球 最 多 的 队员 ) 的 依赖 度 。 

表 2.4” 拟 执教 球 队 的 过 往 赛季 进 球 数 据 


年 份 球 队 总 进 球 数 球 队 第 1 射手 进 球 数 
1997 69 15 


1998 68 16 


ed 74 16 


27 


\ NANAN 
分 析 与 行业 应 用 案例 详解 〈 第 2 版 ) 
WW Wi 


2.3.3 ”Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 3 个 变量 ,分别 是 年 
份 、 总 进 球 数 和 第 1 射手 进 球 数 。 我 们 把 年 份 变 量 设 定 为 year， 把 总 进 球 数 变量 设 定 为 total， 
把 第 1 射手 进 球 数 变量 设 定 为 first， 变 量 类 型 及 长 度 采取 系统 默认 方式 ， 然 后 录入 相关 数据 。 
相关 操作 我 们 在 第 1 章 中 已 有 详细 讲述 。 录 入 完成 后 数据 如 图 2.12 所 示 。 


oo taro E00- E923 ga) we we 0 em 
File Edi View Data Tools 
碟 回 下 润色 恒生 了: 
yearll] 1997 
| i | 
FE- ables here 
Label 
tom 
first 
varables [本 Shipsha 国 
[properties 
(Varisbles 
Name ye 
Label 
Type fioat 
Format aog 
Value label 
Notes 
ll 盏 we 量 
Ready Vars3 Order Danaset Obs16 Filer OF ModerFdit “AF NUM 2 


图 2.12 案例 2.3 数据 
先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 骤 如 下 : 


进入 Stata 14.0， 打 开 相 关 数据 文件 ， 弹 出 主 界面 。 
贺 在 主 界面 的 “Command” 文 本 框 中 输入 命令 : 


graph twoway line total first year 


国 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


2.3.4 结果 分 析 


上 述 操作 完成 后 ，Stata 14.0 将 弹出 如 图 2.13 所 示 的 曲线 标 绘图 。 
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图 2.13 ”曲线 标 绘图 1 


通过 观察 曲线 图 ， 可 以 比较 轻松 地 看 出 本 支 球 队 的 进 球 情况 。 我 们 发 现 ， 该 球 队 的 进 球 
状态 虽 有 所 起 伏 却 变化 不 大 , 但 是 队 内 第 1 射手 的 进 球状 态 是 在 波动 中 上 升 的 , 这 可 能 是 原来 
的 射手 逐渐 成 熟 、 成 长 起 来 ， 能 力 得 到 提升 ， 也 有 可 能 是 引进 了 更 加 优秀 的 球员 所 致 。 从 整体 
上 看 , 该 支 球 队 并 没有 完全 依赖 第 1 射手 进 球 , 但 是 它 的 依赖 度 自 2005 年 以 来 是 有 所 上 升 的 。 


2.3.5 ”案例 延伸 

上 述 的 Stata 命令 比较 简洁 ， 分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 

1. 延伸 1: 给 图 形 增 加 标题 、 给 坐标 轴 增 加 数值 标签 并 设 定 间 距 、 显 示 坐 标 轴 的 刻度 

例如 我 们 要 给 图 形 增加 标题 的 名 称 “ 案 例 2.3 结果 ”， 对 X 轴 添 加 数值 标签 ， 取 值 为 
1997~2012， 间 距 为 2， 对 Y 轴 添 加 数值 标签 ， 取 值 为 0-80， 间 距 为 10， 对 X 轴 添 加 刻度 ， 
间距 为 1， 那 么 操作 命令 就 应 该 相应 地 修改 为 : 


graph twoway line total first yearvtitle(" 案 例 2.3 结 果 ") xlabel(1997(2)2012) 
ylabel (0(10) 80) xtick(1997(1)2012) 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 2.14 所 示 。 


案例 2.3 结 果 


0 10 20 30 40 50 60 70 80 


图 2.14 ”曲线 标 绘图 2 
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2. 延伸 2: 改变 变量 默认 标签 

例如 ， 我 们 要 在 延伸 1 的 基础 上 使 总 进 球 数 和 第 1 射手 进 球 数 这 两 个 变量 的 标签 直接 以 
汉字 显示 ， 从 而 更 加 清晰 直观 ， 那 么 操作 命令 就 应 该 相应 地 修改 为 : 

graph twoway line total first yearrtitle(" 案 例 2.3 结 果 ") xlabel (1997 (2)2012) 

ylabel (0(10) 80) xtick(1997(1)2012) legend (label (1 "总 进 球 数 ") 

label (2 "第 1 射手 进 球 数 ") ) 

在 命令 窗口 输入 命令 并 按 回 车 键 进 行 确认 ， 结 果 如 图 2.15 所 示 。 


案例 2.3 结 果 
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图 2.15 ”曲线 标 绘图 3 
3. 延伸 3: 改变 线条 的 样式 


例如 ， 我 们 要 在 延伸 2 的 基础 上 进行 改进 ， 使 第 1 射手 进 球 数 的 曲线 变 为 虚线 ， 那 么 操 
作 命 令 就 应 该 相应 地 修改 为 : 


graph twoway line total first year,title(" 案 例 2.3 结果") xlabel (1997(2)2012) 
ylabel (0(10)80) xtick(1997(1)2012) legend (label (1 "总 进 球 数 ") 
label (2 "第 1 射手 进 球 数 ")) clpattern(solid dash) 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 2.16 所 示 。 


案例 2.3 结 果 


0 1020 30 4 50 60 70 80 


1997 ”1999 2001 ”2003 ”2005 2007 ”2009 2011 
year 


一 一 一 总 进 球 数 ”一 一 一 一 第 一 射手 进 球 数 


2.16 ”曲线 标 绘图 4 


在 上 述 命令 中 ，solid 代表 实 线 ， 对 应 的 是 第 1 个 因 变 量 total; dash 代表 虚线 ， 对 应 的 是 
第 2 个 因 变量 first。 线 条 样式 与 其 对 应 的 命令 缩写 如 表 2.5 所 示 。 
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表 2.5 线条 样式 与 命令 缩写 


线条 样式 命令 缩写 线条 样式 命令 缩写 线条 样式 命令 缩写 
实 线 solid 点 划 线 dash dot 长 划 线 longdash 
虚线 dash 短 划 线 shortdash 长 划 点 线 longdash_ dot 
点 线 line 短 划 点 线 shortdash dot 不 可 见 的 线 blank 


2.4 ”实例 四 一 一 连 线 标 绘图 


2.4.1 连 线 标 绘图 的 功能 与 意义 


在 2.3 节 中 我 们 提 到 曲线 标 绘图 用 一 条 线 来 代替 散 点 标志 , 可 以 更 加 清晰 直观 地 看 出 数据 
走势 ,但 却 无 法 观察 到 每 个 散 点 的 准确 定位 。 那 么 ,有 没有 一 种 作 图 方式 既 可 以 满足 观测 数据 
走势 的 需要 ， 又 能 实现 每 个 散 点 的 准确 定位 ? Stata 的 连 线 标 绘 图 制图 方法 就 提供 了 解决 这 一 
问题 的 方法 。 


2.4.2 ”相关 数据 来 源 


下 载 资源 :\video\chap02\… 


下 载 资源 :samplevchap02\ 正 文 \ 案 例 2.4.dta 


【 例 2.4】A 市 旅游 局 决定 对 辖区 内 某 一 王牌 旅游 景点 进行 游客 量 调查 ， 调 查 得 到 的 数据 
经 整理 后 如 表 2.6 所 示 。 试 通过 绘制 连 线 标 绘图 来 分 析 研 究 该 景点 的 游客 量 随 季节 的 变化 情况 。 


表 2.6 某 旅 游 景点 各 月 份 旅游 人 次 


游客 量 / 人 /次 
1779 
2339 
2559 
3429 
5689 


6798 
11 2794 
12 1986 


2.4.3 ”Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 两 个 变量 ， 分 别 是 月 
份 、 游 客 量 。 我 们 把 月 份 变量 设 定 为 month， 把 游客 量变 量 设 定 为 number， 变 量 类 型 及 长 度 
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采取 系统 默认 方式 ， 然 后 录入 相关 数据 。 相 关 操作 我 们 在 第 1 章 中 已 有 详细 讲述 。 录入 完成 后 
数据 如 图 2.17 所 示 。 


Fle Edit View Data T 
区 日本 饭 返 国 3 了 - 
momthll] 1 


eaty Vers:2 OrderDaioset Obs12 Fiter OF Mode:Edit 
图 2.17 案例 2.4 数 据 
先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 又 如 下 : 


加 进入 Stata 14.0， 打 开 相关 数据 文件 ， 弹 出 主 界面 。 
在 主 界面 的 “Command” 文 本 框 中 输入 命令 : 


A NUM 2 


graph twoway connected number month 


辆 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 
2.4.4 结果 分 析 


上 述 操作 完成 后 ，Stata 14.0 将 弹出 如 图 2.18 所 示 的 连 线 标 绘图 
目 


图 2.18 ” 连 线 标 绘图 1 
通过 观察 连 线 标 绘图 ， 我 们 可 以 了 解 到 很 多 信息 : 一 方面 可 以 清晰 地 看 到 该 景点 各 个 月 
份 的 游客 人 次 的 准确 值 ， 另 一 方面 可 以 看 到 该 景点 游客 人 次 的 变化 趋势 。 该 景点 的 5~10 月 份 


是 旺季 ， 其 中 10 月 份 游客 人 数 最 多 ， 其 他 的 月 份 属于 淡季 ，1 月 份 的 游客 人 数 最 低 。 决 策 者 
可 以 根据 这 一 规律 为 景点 合理 配置 资源 、 制 定 差别 价格 等 。 
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2.4.5 ”案例 延伸 


上 述 的 Stata 命令 比较 简洁 ， 分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 


1. 延伸 1: 给 图 形 增加 标题 、 给 坐标 轴 增 加 数值 标签 并 设 定 间距 、 显 示 坐 标 轴 的 刻度 
例如 ， 我 们 要 给 图 形 增加 标题 的 名 称 “案例 2.4 结果 ”， 对 X 轴 添 加 数值 标签 ， 取 值 为 

1~12， 间 距 为 1， 对 Y 轴 添 加 数值 标签 ， 取 值 为 1000~7000， 间 距 为 1000， 对 Y 轴 添 加 刻度 ， 
间距 为 500， 那 么 操作 命令 就 应 该 相应 地 修改 为 : 

graph twoway connected number month,title ("案例 2.4 结果 ") xlabel (1(1)12) 

ylabel (1000(1000)7000) ytick(1000(500)7000) 

在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 2.19 所 示 。 

2. 延伸 2: 改变 线条 的 样式 


例如 ， 我 们 要 在 延伸 1 的 基础 上 进行 改进 ， 使 游客 量 的 曲线 变 为 虚线 ， 那 么 操作 命令 就 
应 该 相应 地 修改 为 : 


graph twoway connected number month,title(" 案 例 2.4 结果 ") xlabel (1(1)12) 
ylabel (1000(1000)7000) ytick(1000(500)7000) clpattern (dash) 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 2.20 所 示 。 


上 案例 2.4 结 果 上 案例 2.4 结 果 
人 
入 7 
上 上 AN ~ 
/ MW 1 
国 7 一 
虽 一 忆 
上 Ee » 
目 Bs i 
1 蝎 3 4 5 6 党 8 9 10 11 12 .| 2 3 4 5 6 和 8 9 10 11 12 
onl 
图 2.19 连 线 标 绘图 2 


3. 延伸 3: 控制 散 点 标志 的 形状 


图 2.20 连 线 标 绘图 3 


例如 ， 我 们 要 在 延伸 2 的 基础 上 使 连 线 标 绘图 中 散 点 标志 的 形状 变 为 实心 萎 形 ， 那 么 操 
作 命 令 就 应 该 相应 地 修改 为 : 


graph twoway connected number month,title(" 案 例 2.4 结果 ") xlabel (1(1)12) 
ylabel (1000 (1000)7000) ytick(1000(500)7000) clpattern (dash) msymbol (D) 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 2.21 所 示 。 
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案例 2.4 结 果 
六 
J 
上 pg / 
入 A 
8 ee 
入 7 -er 1 
外 / \ 
3 / \ 
和 用 \ 
了 ~ 
昌 Fe bd 
8 i 
Te 


es 
和 全 


图 2.21 连 线 标 绘图 4 


2.5 ”实例 五 


2.5.1 箱 图 的 功能 与 意义 


箱 图 


箱 图 (Box-Plot) 又 称 为 盒 须 图 、 盒 式 图 或 箱 线 图 ， 是 一 种 用 于 显示 一 组 数据 分 散 情况 的 
统计 图 。 箱 图 很 形象 地 分 为 中 心 、 延 伸 以 及 分 部 状态 的 全 部 范围 , 提供 了 一 种 只 用 5 个 点 对 数 


据 集 做 简单 总 结 的 方式 ， 这 5 个 点 包括 中 点 、Q1、Q3、 分 部 状态 的 高 位 和 低位 。 数 据 分 析 者 
通过 绘制 箱 图 不 仅 可 以 直观 明了 地 识别 数据 中 的 异常 值 , 判断 数据 的 偏 态 、 尾 重 以 及 比较 几 批 
数据 的 形状 。 


2.5.2 ”相关 数据 来 源 


下 载 资源 :\Wideo\chap02\… 


下 载 资源 :samplevchap02\ 正 文 \ 案 例 2.5.dta 


【 例 2.5】X 集团 是 一 家 国内 大 型 销售 汽车 的 公司 


该 公司 在 组 织 架构 上 采取 的 是 事业 部 
制 管理 方式 ， 把 全 国 市 场 分 为 3 个 大 区 ， 从 而 督导 各 省 市 的 分 公司 。 该 集团 在 全 国 各 省 市 的 市 
场 份额 情况 如 表 2.7 所 示 。 试 绘制 箱 图 来 研究 分 析 其 分 布 规律 。 


表 2.7 某 集 团 各 大 分 区 的 市 场 份额 情况 
地 区 
北京 
天 津 
河北 
山西 


所 属 大 区 


内 蒙古 


34 


2 章 ，State 图 形 绘制 


\\\\\\N\ 


AAAAAG NAN\ 


( 续 表 ) 


2.5.3 ”Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 3 个 变量 ， 分 别 是 地 
区 、 市 场 份额 以 及 所 属 大 区 。 我 们 把 地 区 变量 设 定 为 region， 把 市 场 份额 设 定 为 SCFE， 把 所 
属 大 区 变量 设 定 为 Center， 变 量 类 型 及 长 度 采 取 系 统 默认 方式 ， 然 后 录入 相关 数据 。 相 关 操 作 
我 们 在 第 1 章 中 已 有 详细 讲述 。 录 入 完成 后 数据 如 图 2.22 所 示 。 

先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 步 骤 如 下 : 


加 进入 Stata 14.0， 打 开 相关 数据 文件 ， 弹 出 主 界面 。 
加 在 主 界面 的 “Command” 文 本 框 中 输入 命令 : 


graph box SCFE 


加 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


FE 去 
口 Dotdiostd- S05 dol 和 ee we | 
File Edit View Data Tools 
让 加 一 肿 色 国 3 了 : 
regionlil Bejing 
Variables 
Filter veriabk 
回 Name Label | 
司 9 region 
SCE | 
Wm Cent | 
Variables SPFSE| 
Properties | 
日 Variables 四 
Name region E 
Label 下 
Type strl4 加 
Format %145 
babel 
Ready Length:14 Vars:3 Order: Dataset Obs: 29 Mode: Edit CAP NUM -2 


图 2.22 案例 2.5 数据 


2.5.4 结果 分 析 


上 述 操作 完成 后 ，Stata 14.0 将 弹出 如 图 2.23 所 示 的 箱 图 。 
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SCFE 


图 2.23 箱 图 1 


通过 观察 箱 图 ， 可 以 了 解 到 很 多 信息 。 箱 图 把 所 有 的 数据 分 成 了 4 部 分 ， 第 1 部 分 是 从 
顶 线 到 箱子 的 上 部 ， 这 部 分 数据 值 在 全 体 数据 中 排名 前 25%; 第 2 部 分 是 从 箱子 的 上 部 到 箱 
子 中 间 的 线 ， 这 部 分 数据 值 在 全 体 数据 中 排名 25% 以 下 ，50% 以 上 ; 第 3 部 分 是 从 箱子 中 间 的 
线 到 箱子 的 下 部 ， 这 部 分 数据 值 在 全 体 数据 中 排名 50% 以 下 ，75% 以 上 ; 第 4 部 分 是 从 箱子 的 
底部 到 底线 ， 这 部 分 数据 值 在 全 体 数据 中 排名 后 25%。 顶 线 与 底线 的 间距 在 一 定 程度 上 表示 
了 数据 的 离散 程度 ， 间 距 越 大 就 越 离散 。 就 本 例 而 言 ,我们 可 以 看 到 该 公司 市 场 份额 的 中 位 数 
在 32% 左 右 ， 市 场 份额 最 高 的 省 市 可 达到 90% 左 右 。 


2.5.5 ”案例 延伸 


上 述 的 Stata 命令 比较 简洁 ， 分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 
延伸 : 我 们 能 和 否 把 上 面 各 省 市 的 市 场 份额 数据 按照 所 属 各 个 大 区 分 别 绘制 箱 图 呢 ? 答案 
是 肯定 的 。 
操作 命令 应 该 相应 地 修改 为 : 


graph box SCFE,over( Center) 

在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 2.24 所 示 。 
8 
3 


1 本 和 


2.24 箱 图 2 


数 水 平 最 低 , 第 1 大 区 的 市 场 份额 中 位 数 水 平 居中 。 第 2 大 区 各 个 省 市 之 间 的 市 场 份额 情况 相 
对 存在 较 大 差异 。 


2.6 实例 六 


2.6.1 饼 图 的 功能 与 意义 


饼 图 是 数据 分 析 中 常见 的 一 种 经 典 图 形 ， 因 其 外 形 类 似 于 圆 饼 而 得 名 。 在 数据 分 析 中 ， 
很 多 时 候 需要 分 析 数 据 总 体 的 各 个 组 成 部 分 的 占 比 ， 我 们 可 以 通过 各 个 部 分 与 总 额 相 除 来 计 
算 ， 但 这 种 数学 比例 的 表示 方法 相对 抽象 ，Stata 14.0 提供 了 饼 形 制图 工具 ， 能 够 直接 以 图 形 
的 方式 显示 各 个 组 成 部 分 所 占 比例 , 更 为 重要 的 是 , 由 于 采用 图 形 的 方式 , 因此 更 加 形象 直观 。 


饼 医 


2.6.2 ”相关 数据 来 源 


EF rave 


一 下 载 资源 :\sample\chap02\ 正 文案 例 2.6.dta 


【 例 2.6】B 股份 有 限 公司 是 一 家 资产 规模 巨大 的 国内 上 市 公司 ， 公 司 采取 多 元 化 经 营 的 
成 长 型 发 展 战略 ， 经 营 范 围 包 括 餐 饮 、 房 地 产 、 制 造 等 ， 公 司 采取 区 域 事 业 部 制 的 组 织 架 构 ， 
在 东部 、 中 部 、 西 部 都 有 自己 的 分 部 , 较为 独立 地 负责 本 部 各 产业 的 具体 运营 。 该 公司 各 大 分 
部 的 具体 营业 收入 数据 如 表 2.8 所 示 。 试 通过 绘制 饼 图 的 方式 研究 该 公司 各 产业 的 占 比 情况 。 


表 2.8 某 集团 各 大 分 部 的 市 场 份额 情况 


地 区 “| 餐饮 业 营业 收入 /万 元 房地产 业 营业 收入 /万 元 制造 业 营业 收入 /万 元 


7712 
西部 1063 


2.6.3 ”Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 4 个 变量 ， 分 别 是 地 
区 、 餐 饮 业 营业 收入 、 房地产 业 营 业 收 入 以 及 制造 业 营业 收入 。 我 们 把 地 区 变量 设 定 为 region， 
把 餐饮 业 营 业 收入 变量 设 定 为 CANYIN, 把 房地产 业 营 业 收 入 变量 设 定 为 FANGCHAN, 把 制 
造 业 营业 收入 变量 设 定 为 ZHIZAO， 变 量 类 型 及 长 度 采取 系统 默认 方式 ， 然 后 录入 相关 数据 。 
相关 操作 我 们 在 第 1 章 中 已 有 详细 讲述 。 录 入 完成 后 数据 如 图 2.25 所 示 。 
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图 2.25 案例 2.6 数 据 
先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 骤 如 下 : 


加 进入 Stata 14.0， 打 开 相 关 数据 文件 ， 弹 出 主 界面 。 
加 在 主 界面 的 “Command” 文 本 框 中 输入 命令 : 


graph Pie CANYIN FANGCHAN ZHIZRAO 


加 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


2.6.4 结果 分 析 


上 述 操作 完成 后 ，Stata 14.0 会 弹出 如 图 2.26 所 示 的 饼 图 。 


CANYIN WN FANGCHAN 
WN ZHIZAO 
图 2.26 饼 图 1 


通过 观察 饼 图 ， 我 们 可 以 比较 轻松 地 看 出 企业 的 主 营业 务 ， 该 企业 的 两 个 支柱 产业 是 制 
造 业 和 房地产 ， 餐 饮 业 占 比较 小 。 


2.6.5 ”案例 延伸 


上 述 的 Stata 命令 比较 简洁 ， 分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 
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1. 延伸 1: 对 图 形 展示 进行 更 加 个 性 化 的 设置 

例如 ， 我 们 要 把 餐饮 业 的 营业 收入 占 比 突出 显示 ， 把 房地产 业 营业 收入 的 饼 颜 色 改 为 黄 
色 ， 给 餐饮 业 营 业 收入 和 房地产 业 营业 收入 的 饼 在 距 中 心 20 个 相对 半径 单位 的 位 置 处 加 上 百 
分 比 标签 ， 那 么 操作 命令 就 应 该 相应 地 修改 为 


graph pie CANYIN FANGCHAN ZHIZRO,Pie (1,explode) pie(2,color (yellow) ) 
Plabel (1 percent,gap(20)) plabel(2 percent,gap(20)) 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 2.27 所 示 。 

2. 延伸 2: 按照 分 类 变量 分 别 画 出 饼 图 

例如 ， 我 们 要 在 延伸 1 的 基础 上 通过 绘制 饼 图 的 方式 研究 该 公司 每 个 分 部 内 各 个 产业 的 
占 比 情况 ， 那 么 操作 命令 就 应 该 相应 地 修改 为 : 


graph pie CANYIN FANGCHAN ZHIZAO,pie(l1,explode) pie(2,color(yellow)) 
Plabel (1 percent,gap(20)) plabel (2 percent,gap(20)) by( region) 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 2.28 所 示 。 


210% 


7 人 
属 入 


CANYIN FANGCHAN 
| ZHIZAO 
a 
图 2.27 饼 图 2 图 2.28 饼 图 3 


在 上 面 的 结果 中 ， 可 以 看 到 该 公司 每 个 分 部 各 个 产业 的 占 比 情况 。 例 如 ， 东 部 地 区 ， 观 
测 左上 方 的 east 图 就 可 以 得 到 想 要 的 答案 。 


2.7 实例 七 一 一 条 形 图 


2.7.1 条 形 图 的 功能 与 意义 
相对 于 前 面 提 到 的 箱 图 ， 条 形 图 (Bar Chart) 本 身 所 包含 的 信息 相对 较 少 , 但 是 它们 仍然 


为 平均 数 、 中 位 数 、 合 计数 或 计数 等 多 种 概要 统计 提供 了 简单 又 多 样 化 的 展示 , 所 以 条 形 图 也 
深 受 研究 者 的 喜爱 ， 经 常 出 现在 研究 者 的 论文 或 者 调查 报告 中 。 


39 
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相关 数据 来 源 
DB | 上 wideocnano… 
| 下 载 资源 :\sample\chap02\ 正 文 \ 案 例 2.7.dta 


【 例 2.7】 某 地 方 商 业 银 行内 设立 4 个 营销 团队 ， 分 别 为 A、B、C、D， 其 营业 净 收 入 以 
及 团队 人 数 的 具体 情况 如 表 2.9 所 示 。 试 通过 绘制 条 形 图 的 方式 来 对 比分 析 各 团队 的 工作 业绩 。 


表 2.9 某 银行 各 营销 团队 营业 净 收入 情况 


2.7.3 ”Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 3 个 变量 ， 分 别 是 团 
队 名 称 、 营 业 净 收入 以 及 团队 人 数 。 我 们 把 团队 名 称 变量 设 定 为 team， 把 营业 净 收 入 变量 设 
定 为 sum， 把 团队 人 数 变量 设 定 为 number， 变 量 类 型 及 长 度 采取 系统 默认 方式 ， 然 后 录入 相 
关 数 据 。 相 关 操 作 我 们 在 第 1 章 中 已 有 详细 讲述 。 录 入 完成 后 数据 如 图 2.29 所 示 。 


Fle Edit View pat T 


[ow earor ta | 
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二 | 
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| 
FE 
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Ready lengih 11 Vars:3 Order Dataset Obs4 Fiter Off Mode:Edit <2> NUM 


图 2.29 案例 2.7 数据 
先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 骤 如 下 : 


进入 Stata 14.0， 打 开 相 关 数 据 文件 ， 弹 出 主 界面 。 
加 在 主 界面 的 “Command” 文 本 框 中 输入 命令 : 


graph bar sum,over!( team) 
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辆 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等待 输出 结果 。 


2.7.4 结果 分 析 
上 述 操作 完成 后 ，Stata 14.0 会 弹出 如 图 2.30 所 示 的 条 形 图 。 
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| 园 
A c D 


图 2.30 条 形 图 1 


通过 观察 该 条 形 图 ， 我 们 可 以 比较 轻松 地 看 出 该 地 方 商业 银行 的 4 个 团队 的 总 体 工 作业 
绩 ， 其 中 D 团队 成 绩 最 好 ，C 其 次 ，B 再 次 ，A 最 差 。 


2.7.5 ”案例 延伸 


上 述 的 Stata 命令 比较 简洁 ， 分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 

1. 延伸 1: 给 图 形 增加 标题 、 给 坐标 轴 增 加 数值 标签 并 设 定 间距 、 显 示 坐 标 轴 的 刻度 

例如 ， 我 们 要 给 图 形 增加 标题 的 名 称 “ 案 例 2.7 结果 ”， 对 Y 轴 添 加 数值 标签 ， 取 值 
为 1000~7000， 间 距 为 1000， 对 YY 轴 添 加 刻度 ， 间 距 为 500， 那 么 操作 命令 就 应 该 相应 地 
修改 为 : 


graph bar sum,over (team) title ("案例 2.7 结果 ") ylabel (1000(1000)7000) 


mean of aum 
4000 


ytick(1000 (500) 7000) 
在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 2.31 所 示 。 
案例 2.7 结 果 
3 
有 
五 二 
| | 
:加 因 
图 2.31 条 形 图 2 
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2. 延伸 2: 利用 条 形 图 进行 对 比分 析 以 得 到 更 多 信息 

例如 ， 我 们 要 在 延伸 1 的 基础 上 对 问题 进行 深入 研究 ， 在 上 面 的 案例 中 得 到 了 各 团队 工 
作 总 业绩 的 具体 排名 , 那么 这 种 总 业绩 的 差异 是 不 是 由 于 团队 人 数 的 差异 引起 的 ? 是 否 高 工作 
业绩 的 团队 配备 了 更 多 的 员工 ?下 面 我 们 采用 新 的 命令 分 析 一 下 。 操 作 命 令 改 为 : 


graph bar sum number,over( team) title ("案例 2.7 结果") ylabel (1000(1000)7000) 


ytick(1000(500)7000) 
在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 2.32 所 示 。 
案例 2.7 结 果 

有 

上 

上 

呈 

A B © D 
图 2.32 条 形 图 3 


在 上 面 的 结果 中 ， 我 们 可 以 看 到 该 商业 银行 各 团队 之 间 人 数 的 差别 是 不 明显 的 ， 也 就 是 
说 ， 各 团队 工作 业绩 的 巨大 差别 并 不 是 明显 地 由 各 团队 的 员工 数量 差别 引起 的 。 


2.8 ”实例 八 一 一 点 图 


2.8.1 点 图 的 功能 与 意义 


点 图 (Dot Plot) 的 功能 与 作用 是 和 前 面 提 到 的 条 形 图 类 似 的， 都 是 用 来 直观 地 比较 一 个 
或 者 多 个 变量 的 概要 统计 情况 。 点 图 应 用 广泛 , 经 常 出 现在 政府 机 关 或 者 咨询 机 构 发 布 的 预测 
报告 中 。 


2.8.2 ”相关 数据 来 源 


BF | 上 viteocmapov- 


本 下 载 资源 :\sample\chap02\ 正 文 \ 案 例 2.8.dta 


【 例 2.8】 山 东 省 济南 市 某 医院 在 市 内 设立 有 5 个 分 院 ， 分 别 是 历 下 分 院 、 历 城 分 院 、 天 
桥 分 院 、 槐 荫 分 院 、 高 新 分 院 ， 以 服务 各 区 市 民 ， 其 内 部 员工 的 人 数组 成 如 表 2.10 所 示 。 试 
通过 绘制 点 图 按 分 院 分 析 该 医院 员工 的 组 成 情况 。 
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表 2.10 某 医院 内 部 员工 人 数组 成 情况 
| 分院 名 称 女 员 工人 数 | 
| 历 下 分 院 ol | 
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2.8.3 ”Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 3 个 变量 ， 分 别 是 分 
院 名 称 、 男 员工 人 数 以 及 女 员 工人 数 。 我 们 把 分 院 名 称 变量 设 定 为 name， 把 男 员 工人 数 变量 
设 定 为 man， 把 女 员 工人 数 变量 设 定 为 woman， 变 量 类 型 及 长 度 采 取 系 统 默 认 方式 ， 然 后 录入 相 
关 数 据 。 相 关 操 作 我 们 在 第 1 章 中 已 有 详细 讲述 。 录 入 完成 后 数据 如 图 2.33 所 示 。 

先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 又 如 下 : 

加 进入 Stata 14.0， 打 开 相 关 数 据 文 件 ， 弹 出 主 界面 。 

贺 在 主 界面 的 “Command” 文 本 框 中 输入 命令 : 


graph dot man wowan,over( name) 
加 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 
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JReady length:8 Vars:3 Order:Dataset Obs:5 Filter Off Mode; Edit NUM | 


图 2.33 案例 2.8 数据 


2.8.4 结果 分 析 


上 述 操 作 完 成 后 ，Stata 14.0 会 弹出 如 图 2.34 所 示 的 点 图 。 
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图 2.34 点 图 1 
通过 观察 该 点 图 ， 可 以 比较 轻松 地 看 出 很 多 信息 : 第 一 ， 各 个 分 院 的 女 员工 人 数 都 比 男 
员工 人 数 多 ,因为 代表 女 员 工 的 点 都 在 代表 男 员工 的 点 的 右 侧 ; 第 二 , 高 新 分 院 不 论 是 男 员工 
还 是 女 员 工 ， 人 数 都 是 最 多 的 ， 第 三 ， 历 下 分 院 不 论 是 男 员工 还 是 女 员 工 ， 人 数 都 是 最 少 的 。 
2.8.5 ”案例 延伸 
上 述 的 Stata 命令 比较 简洁 ， 分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 


1. 延伸 1: 给 图 形 增加 标题 
例如 , 我 们 要 给 图 形 增加 标题 名 称 “ 案 例 2.8 结果 ”, 那么 操作 命令 就 应 该 相应 地 修改 为 : 


graph dot man wowan,over( name) title ("案例 2.8 结果 ") 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 2.35 所 示 。 


案例 2.8 结 果 


图 2.35 点 图 2 


2. 延伸 2: 控制 散 点 标志 的 形状 
此 处 与 散 点 图 略 有 不 同 ， 我 们 需要 用 到 marker 命令 。 例 如 ， 我 们 要 在 延伸 1 的 基础 上 使 


图 中 男性 员工 散 点 标志 的 形状 变 为 实心 菱形 ， 使 图 中 女性 员工 散 点 标志 的 形状 变 为 实心 三 角 ， 
那么 操作 命令 就 应 该 相应 地 修改 为 : 


\ \ 第 2 章 ”Stata 图 形 绘制 


graph dot man wowan,over( name) title(" 案 例 2.8 结果 ") marker (1,msymbol(D) ) 
marker (2,msymbol (T)) 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 2.36 所 示 。 


案例 2.8 结 果 
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图 2.36 点 图 3 


2.9 ”本 章 习 题 


(1) 为 了 解 我 国 各 地 区 的 电力 消费 情况 ， 某 课题 组 搜集 整理 了 2009 年 我 国 29 个 省 市 的 电 
力 消费 数据 ， 如 表 2.11 所 示 。 试 通过 绘制 直方 图 来 直观 地 反映 我 国 各 地 区 的 电力 消费 情况 。 


表 2.11 2009 年 我 国 29 省 市 的 电力 消费 情况 


电力 消费 / 亿 千 瓦 时 
739.146 
天 550.156 
; 2343.85 
1267.54 
128793 
337.237 
462.958 
547.877 
(2) 为 了 解 某 班级 学 生 的 学 习 情况 ， 教 师 对 该 班 的 学 生 举行 了 一 次 封闭 式 测验 ， 成 绩 如 
表 2.12 所 示 。 试 通过 绘制 散 点 图 来 直观 地 反映 这 些 学 生 的 语文 、 数 学 成 绩 的 组 合 情 况 。 


表 2.12 某 班级 学 生 的 学 习 成 绩 


编 
1 
人 
2 
4 
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( 续 表 ) 
编号 语文 成 绩 数学 成 绩 
41 63 69 
42 60 91 


(3) 某 山 村 有 每 年 自行 进行 人 口 普 查 的 习惯 ， 该 山村 近 些 年 的 人 口 数据 如 表 2.13 所 示 。 试 
通过 绘制 曲线 标 绘图 来 分 析 研 究 该 山村 的 人 口 情况 变化 趋势 以 及 新 生 儿 对 总 人 口 数 的 影响 程度 。 
表 2.13 某 山 村 人 口 普查 资料 


年 份 总 人 数 新 生 儿 数 | 
1997 128 15 | 
1998 | 138 16 | 


1999 


2000 
2001 


2010 
2011 


(4) 某 课题 研究 组 准备 对 我 国 上 市 公司 的 数量 情况 进行 调查 研究 ， 调 查 得 到 的 数据 经 整 
理 后 如 表 2.14 所 示 。 试 通过 绘制 连 线 标 绘图 来 分 析 研 究 我 国 上 市 公司 数量 的 变化 情况 。 
表 2.14 我国 上 市 公司 数量 (1998 一 2009 年 ) 


(5) T 集团 是 一 家 国内 大 型 旅游 公司 ， 该 公司 在 组 织 架构 上 采取 的 是 事业 部 制 管理 方式 ， 
把 全 国 各 分 支 机 构 分 为 3 个 大 区 , 由 各 分 区 督导 各 省 市 分 公司 。T 集 团 在 全 国 各 省 市 的 营业 额 
情况 如 表 2.15 所 示 。 试 绘制 箱 图 来 研究 分 析 其 分 布 规律 。 
表 2.15 工 集团 各 省 市 的 营业 额 情况 
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(6) Y 公司 是 一 家 饮料 代理 销售 公司 ， 公 司 销售 范围 包括 可 乐 、 奶 茶 、 牛 奶 等 ， 公 司 采 
取 区 域 事业 部 制 的 组 织 架构 , 在 东部 、 中 部 、 西 部 都 有 自己 的 分 部 , 较为 独立 地 负责 本 部 各 产 
品 的 具体 运营 。 该 公司 各 大 分 部 的 具体 营业 收入 数据 如 表 2.16 所 示 。 试 通过 绘制 饼 图 的 方式 
研究 该 公司 各 饮料 的 销售 占 比 情况 。 


表 2.16 YY 公司 各 饮料 的 销售 占 比 情况 


[地 区 可 乐 销售 收入 /万 元 奶茶 销售 收入 /万 元 牛奶 销售 收入 /万 元 | 
| 东部 1998 10 235 9837 | 
中 部 928 7780 6573 


西部 361 1098 1076 


(7) 某 集团 内 设 4 个 产品 部 ， 分 别 为 A、B、C、D， 其 创造 利润 以 及 部 门人 数 的 具体 情 
况 如 表 2.17 所 示 。 试 通过 绘制 条 形 图 的 方式 来 对 比分 析 各 部 门 的 工作 业绩 。 


表 2.17 某 集团 各 部 门 的 营业 净 收 入 情况 


产品 部 创造 利润 /万 元 部 门人 数 


(8) 某 银行 在 国内 设 有 5 家 分 行 ， 分 别 是 山东 分 行 、 陕 西 分 行 、 山 西 分 行 、 北 京 分 行 、 
天 津 分 行 ， 以 便 为 广大 客户 服务 ， 其 内 部 员工 人 数 的 组 成 结构 如 表 2.18 所 示 。 试 通过 绘制 点 
图 按 分 行 分 析 该 银行 员工 的 组 成 情况 。 


表 2.18 某 银行 内 部 员工 人 数组 成 情况 
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在 进行 数据 分 析 时 ， 当 研究 者 得 到 的 数据 量 很 小 时 ， 可 以 通过 直接 观察 原始 数据 来 获得 所 
有 的 信息 。 但 是 当 得 到 的 数据 量 很 大 时 ， 就 必须 借助 各 种 描述 指标 来 完成 对 数据 的 描述 工作 。 
用 少量 的 描述 指标 来 概括 大 量 的 原始 数据 ， 对 数据 展开 描述 的 统计 分 析 方 法 被 称 为 描述 性 统计 
分 析 。 变 量 的 性 质 不 同 ，Stata 描述 性 分 析 处 理 的 方式 也 不 一 样 。 本 章 将 要 介绍 的 描述 统计 分 析 
方法 包括 定 距 变 量 的 描述 性 统计 、 正 态 性 检验 和 数据 转换 、 单 个 分 类 变量 的 汇总 、 两 个 分 类 变 
量 的 列 联 表 分 析 、 多 表 和 多 维 列 联 表 分 析 等 。 下 面 我 们 一 一 介绍 这 几 种 方法 在 实例 中 的 应 用 。 


3.1 实例 一 一 一 定 距 变量 的 描述 性 统计 


3.1.1” 定 距 变量 的 描述 性 统计 功能 与 意义 


数据 分 析 中 的 大 部 分 变量 都 是 定 距 变 量 ， 通 过 进行 定 距 变量 的 基本 描述 性 统计 ， 我 们 可 
以 得 到 数据 的 概要 统计 指标 ,包括 平均 值 、 最 大 值 、 最 小 值 、 标 准 差 、 百 分 位 数 、 中 位 数 、 偏 
度 系数 和 峰 度 系数 等 。 数据 分 析 者 通过 获得 这 些 指 标 , 可 以 从 整体 上 对 拟 分 析 的 数据 进行 宏观 
把 握 ， 从 而 为 后 续 进 行 更 深入 的 数据 分 析 做 好 必要 的 准备 。 


3.1.2 ”相关 数据 来 源 


下 载 资源 :\ideo\chap03\… 


= 下 载 资源 :\sample\chap03\ 正 文 \ 案 例 3.1.dta 


【 例 3.1】 为 了 解 我 国 各 地 区 的 电力 消费 情况 ， 某 课题 组 搜集 整理 了 2009 年 我 国 31 个 省 
市 的 电力 消费 量 的 有 关 数 据 ， 如 表 3.1 所 示 。 试 通过 对 数据 进行 基本 描述 性 分 析 来 了 解 我 国 各 
地 区 电力 消费 的 基本 情况 。 
表 3.1 2009 年 我 国 31 个 省 市 的 电力 消费 量 的 有 关 数 据 


地 区 电力 消费 量 / 亿 千瓦 时 
北京 739.146 
天 津 550.156 
河北 2343.85 
山西 1267.54 


内 蒙古 1287.93 


江 a Ru 


AN 
WW 
( 续 表 ) 
地 区 电力 消费 量 / 亿 千瓦 时 
青海 337.237 
要 462.958 
新 疆 547.877 


3.1.3 ”Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 两 个 变量 ， 分 别 是 地 
区 和 电力 消费 量 。 我 们 把 地 区 变量 设 定 为 region， 把 电力 消费 量变 量 设 定 为 cunsumption， 变 
量 类 型 及 长 度 采取 系统 默认 方式 ,然后 录入 相关 数据 。 相 关 操 作 我 们 在 第 1 章 中 已 有 详细 讲述 。 
录入 完成 后 数据 如 图 3.1 所 示 。 


Ready Lengte16 Vars:2 Order:Dataset Obs:31 Fiter: ON Mode Edit CAF NUM 2 


图 3.1 案例 3.1 数据 
先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 又 如 下 : 


加 进入 Stata 14.0， 打 开 相 关 数据 文件 ， 弹 出 主 界面 。 
思 在 主 界面 的 “Command” 文 本 框 中 输入 命令 : 


summarize cunsumption 


园 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 
3.1.4 结果 分 析 


在 Stata 14.0 主 界面 的 结果 窗口 中 可 以 看 到 如 图 3.2 所 示 的 分 析 结 果 。 


~ Summarize cunsumption 


Variable Obs Mean std. Dev. 


cunsumption 31 1180.489 903.5561 17.6987 3609.642 


3.2 分 析 结 果 图 
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通过 观察 分 析 结果 ， 我 们 可 以 对 2009 年 我 国 各 地 区 的 电力 消费 量 情况 有 一 个 整体 初步 的 
了 解 。 从 结果 可 以 看 出 ， 有 效 观测 样本 共有 31 个 ，2009 年 我 国 各 地 区 电力 消费 量 的 平均 值 为 
1180.489 亿 千 瓦 时 ， 样 本 的 标准 差 是 903.5561， 样 本 的 最 小 值 是 17.6987， 样 本 的 最 大 值 是 
3609.642。 


3.1.5 ”案例 延伸 

上 述 的 Stata 命令 比较 简洁 ， 分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 

1. 延伸 1: 获得 更 详细 的 描述 性 统计 结果 

操作 命令 可 以 相应 地 修改 为 : 

summarize cunsumption,detail 


证 帘 交 宙 昌 的 入 二 全 大 近 同 定 轩 是 条 帮 W 结果 如 图 3.3 所 示 。 


31 
550.1556 462.9585 


891.1902 1180.489 
Largest td. Dev. 903.5561 

1324.61 2471.438 

2471.438 2941.067 ii 816413.7 

3313.986 3313.986 中 1.309032 

3609.642 3609.642 rtosis 3.889152 


图 3.3 分 析 结 果 图 

从 上 面 的 分 析 结 果 中 可 以 得 到 更 多 信息 。 

(1) 百 分 位 数 (Percentiles ) 

可 以 看 出 数据 的 第 1 个 四 分 位 数 (25%) 是 550.1556， 数 据 的 第 2 个 四 分 位 数 (50%) 是 
891.1902， 数 据 的 第 3 个 四 分 位 数 〈75%) 是 1324.61。 数 据 的 百 分 位 数 的 含义 是 低 于 该 数据 
值 的 样本 在 全 体 样本 中 的 百分比 。 例 如 ， 本 例 中 25% 分 位 数 的 含义 是 全 体 样本 中 有 25% 的 数 
据 值 低 于 550.1556。 

(2) 4 个 最 小 值 (Smallest) 

本 例 中 ， 最 小 的 4 个 数据 值 分 别 是 17.6987、133.7675、337.2368、462.9585 。 

(3) 4 个 最 大 值 (Largest) 

本 例 中 ， 最 大 的 4 个 数据 值 分 别 是 3609.642、3313.986、2941.067、2471.438。 

(4) 平均 值 (Mean ) 和 标准 差 (Std. Dev) 

与 前 面 的 分 析 结 果 一 样 ， 样 本 数据 的 平均 值 为 1180.489， 样 本 数据 的 标准 差 是 903.5561。 
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(5) 偏 度 (Skewness) 和 峰 度 (Kurtosis ) 

偏 度 的 概念 是 表示 不 对 称 的 方向 和 程度 。 如 果 偏 度 值 大 于 0， 那么 数据 就 具有 正 偏 度 〈 右 
边 有 尾巴 ) ; 如 果 偏 度 值 小 于 0， 那么 数据 就 具有 负 偏 度 (左边 有 尾巴 ) ; 如 果 偏 度 值 等 于 0， 
那么 数据 将 呈 对 称 分 布 。 本 例 中 ， 数 据 偏 度 为 1.309032， 为 正 偏 度 但 不 大 。 

峰 度 的 概念 用 来 表示 尾 重 ， 是 与 正 态 分 布 结合 在 一 起 进行 考虑 的 。 正 态 分 布 是 一 种 对 称 
分 布 ， 它 的 峰 度 值 正好 等 于 3， 如 果 某 数据 的 峰 度 值 大 于 3， 那么 该 分 布 将 会 有 一 个 比 正 态 分 
布 更 长 的 尾巴 ， 如 果 某 数据 的 峰 度 值 小 于 3， 那 么 该 分 布 将 会 有 一 个 比 正 态 分 布 更 短 的 尾巴 。 
本 例 中 ， 数 据 峰 度 为 3.889152， 有 一 个 比 正 态 分 布 更 长 的 尾巴 。 


2. 延伸 2: 根据 自己 的 需要 获取 相应 的 概要 统计 指标 

例如 ， 我 们 想 观 察 各 地 区 电力 消费 量 数据 的 平均 数 、 总 和 、 极 差 、 方 差 等 数据 ， 那 么 操 
作 命 令 可 以 相应 地 修改 为 : 

tabstat cunsumption, stats (mean range Sum Var) 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 3.4 所 示 。 


~ tabstat cunsumption,stats(mean range sun var) 


variable | mean range sum variance 


caneumpeion | 1180.489 3591.944 36595.15 016413.7 


图 3.4 分 析 结 果 图 
从 上 面 的 分 析 结 果 中 可 以 得 到 更 多 信息 。 该 样本 数据 的 均值 是 1180.489, 极 差 是 3591.944， 
总 和 是 36595.15， 方 差 是 816413.7。 
统计 量 与 其 对 应 的 命令 代码 如 表 3.2 所 示 。 
表 3.2 ”统计 量 与 其 对 应 的 命令 代码 
统计 量 令 代 码 统计 量 
总 数 
] 分 位 


统计 量 


命令 代码 命 
| mean | 非 缺 失 值 总 数 count | 
|som | 最 大 值 |max | 


四 分 位 数 9 


3. 延伸 3， 按 另 一 变量 分 类 列 出 某 变量 的 概要 统计 指标 
例如 ， 我 们 要 在 延伸 2 的 基础 上 按 各 个 省 市 分 别 列 出 数据 的 概要 统计 指标 ， 那 么 操作 命 
令 就 应 该 相应 地 修改 为 ; 


极 差 
变异 系数 
峰 度 


tabstat cunsumption,stats (mean range Sum var) by(region) 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 3.5 所 示 。 
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tata 统 计 


tabstat cunsumption,stats(mean range SUm var) by(region 


ummary for variables: cunsumpcion 
by categories of: region 


region sum variance 


Anhui | 952.3056 952.3056 
Beijing | 739.1465 739.1465 
Chongqing | 533.7976 533.7976 
Fujian | 1134.918 1134.918 


Gansu | 705.5127 705.5127 
Guangdong | 3609.642 3609.642 
Guangxi | 856.3511 856.3511 
Guizhou | 750.3007 750.3007 
Hainan | 133.7675 133.7675 

Hebei | 2343.847 2343.847 
Heilongjiang 688.668 688.668 
Henan | 2081.375 2081.375 

Hubei | 1135.127 1135.127 

Hunan 1010.57 1010.57 

Inner Nongolia | 1287.926 1287.926 
Jiangsu | 3313.986 3313.986 
Jiangxi | 609.2236 609.2236 
Jilin | 515.2545 515.2545 
Liaoning | 1488.172 1488.172 
Ningxia | 462.9585 462.9585 
Qinghai | 337.2368 337.2368 
Shaanxi | 740.1138 740.1138 
Shandong | 2941.067 2941.067 
Shanghai | 1153.379 1153.379 
Shanxi | 1267.538 1267.538 
Sichuan 1324.61 1324.61 
Tianjin | 550.1556 550.1556 
Tibec 17.6987 17.6987 
Xinjiang | 547.8766 547.8766 
Yunnan | 891.1902 891.1902 
Zhejiang | 2471.438 2471.438 


图 3.5 分 析 结 果 图 
4. 延伸 4: 创建 变量 总 体 均 值 的 置信 区 间 
例如 ， 我 们 要 创建 电力 消费 量 均值 的 98% 的 置信 区 间 ， 那 么 操作 命令 就 应 该 相应 地 修改 
为 : 


ci cunsumption,level (98) 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 3.6 所 示 。 


Variable | Obs Nean Std. Err. [98% Conf. Interval] 


3.6 分 析 结 果 图 


基于 本 例 中 的 观测 样本 ， 我 们 可 以 推断 出 总 体 的 98% 水 平 的 置信 区 间 。 也 就 是 说 ， 我 们 
有 98% 的 信心 可 以 认为 数据 总 体 的 均值 会 落 在 [781.7159,1579.262] 中 ， 或 者 说 ， 数 据 总 体 的 均 
值 落 在 区 间 [781.7159,1579.262] 的 概率 是 98%。 读 者 可 以 根据 具体 需要 通过 改变 命令 中 括号 里 
面 的 数字 来 调整 置信 水 平 的 大 小 。 
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3.2 实例 二 一 一 正 态 性 检验 和 数据 转换 


3.2.1 ” 正 态 性 检验 和 数据 转换 功能 与 意义 


随 着 科技 的 不 断 发 展 和 计算 方法 的 不 断 改 进 ， 学 者 们 探索 出 了 很 多 统计 分 析 方 法 和 分 析 
程序 。 但 是 有 相当 多 的 统计 程序 对 数据 要 求 比较 严格 , 它们 只 有 在 变量 服从 或 者 近似 服从 正 态 
分 布 的 时 候 才 是 有 效 的 ， 所 以 在 对 整理 收集 的 数据 进行 预 处 理 的 时 候 需 要 对 它们 进行 正 态 检 
验 ,， 如 果 数 据 不 满足 正 态 分 布 假设 , 我 们 就 要 对 数据 进行 必要 的 转换 。 数 据 转换 分 为 线性 转换 
与 非 线性 转换 两 种 ， 其 中 线性 转换 比较 简单 ， 我 们 在 第 1 章 中 也 有 所 涉及 。 本 节 将 要 讲述 的 是 
数据 的 非 线性 转换 在 实例 中 的 应 用 。 


3.2.2 ”相关 数据 来 源 


下 载 资源 :\ideo\chap03\… 


下 载 资源 :\sample\chap03\ 正 文 \ 案 例 3.2.dta 


【 例 3.2】 为 了 解 我 国 各 地 区 公共 交通 的 运营 情况 ， 某 课题 组 搜集 整理 了 我 国 2009 年 各 
省 市 公共 交通 车 辆 运营 的 数据 ， 如 表 3.3 所 示 。 试 使 用 Stata 14.0 对 数据 进行 以 下 操作 : @D 对 
该 数据 进行 正 态 分 布 检 验 ; @ 对 数据 执行 平方 根 变换 方法 ,以 获取 新 的 数据 并 进行 正 态 分 布 检 
验 ; @@ 对 数据 执行 自然 对 数 变换 方法 ， 以 获取 新 的 数据 并 进行 正 态 分 布 检验 。 

表 3.3 我 国 2009 年 各 省 市 公共 交通 车 辆 运营 数据 

公共 交通 车 辆 运营 数 / 辆 
23 730 
8118 
13 531 


6655 
5 558 


1 994 
2133 
8 082 


3.2.3 ”Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 两 个 变量 ， 分 别 是 地 
区 和 公共 交通 车 辆 运营 数 。 我 们 把 地 区 变量 设 定 为 region, 把 公共 交通 车 辆 运营 数 设 定 为 sum， 
变量 类 型 及 长 度 采取 系统 默认 方式 , 然后 录入 相关 数据 。 相 关 操 作 我 们 在 第 1 章 中 已 有 详细 讲 
述 。 录 入 完成 后 数据 如 图 3.7 所 示 。 
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图 3.7 案例 3.2 数据 
先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 骤 如 下 : 


加 进入 Stata 14.0， 打 开 相 关 数据 文件 ， 弹 出 主 界面 。 
在 主 界面 的 “Command” 文 本 框 中 输入 操作 命令 并 按键 盘 上 的 回 车 键 进行 确认 。 对 
应 的 命令 分 别 如 下 。 


esktest sum: 本 命令 的 含义 是 对 该 数据 进行 正 态 分 布 检验 。 

。 ”generate srsum=sqrt(sum) sktest srsum: 本 命令 的 含义 是 对 数据 执行 平方 根 变换 方法 ， 
以 获取 新 的 数据 并 进行 正 态 分 布 检验 。 

。 ”generate lsum=ln(sum) sktest lsum: 本 命令 的 含义 是 对 数据 执行 自然 对 数 变换 方法 ， 以 
获取 新 的 数据 并 进行 正 态 分 布 检验 。 


3.2.4 ”结果 分 析 


在 Stata 14.0 主 界面 的 结果 窗口 中 可 以 看 到 如 图 3.8~ 图 3.10 所 示 的 分 析 结 果 。 
图 3.8 是 对 该 数据 进行 正 态 分 布 检验 的 结果 。 


Skewness/Kurtosis tests for Normality 


joinc 
vartene | Obs ”Pr (Skewness) Pri{Kurtosis) adj chi2 (2) Prob>chi2 


| sum | 31 0.0065 0.0804 8.80 0.0123 
图 3.8 分 析 结 果 图 


通过 观察 分 析 图 ， 我 们 可 以 比较 轻松 地 得 出 分 析 结 论 。 本 例 中 ，sktest 命令 拒绝 了 数据 呈 
正 态 分 布 的 原始 假设 。 从 偏 度 上 看 ，Pr(Skewness) 为 0.0065， 小 于 0.05， 拒 绝 正 态 分 布 的 原 假 
设 ; 从 峰 度 上 看 ，Pr(Kurtosis) 为 0.0804， 大 于 0.05， 接 受 正 态 分 布 的 原 假设 ; 但 是 把 两 者 结合 
在 一 起 考虑 ， 从 整体 上 看 ，Prob>chi2 为 0.0123， 小 于 0.05， 拒 绝 正 态 分 布 的 原 假设 。 

图 3.9 是 对 数据 执行 平方 根 变换 方法 ， 以 获取 新 的 数据 并 进行 正 态 分 布 检验 的 结果 。 
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sktest srsun 


Skevness/Kurtosis tests for Normality 
join 
Variable | Obs PrlSkevness) Pr(Kurtosis) adj chi2 (2) Prob>chi2 


图 3.9 分 析 结 果 图 


通过 观察 分 析 图 ， 我 们 可 以 比较 轻松 地 得 出 分 析 结 论 。 本 例 中 ，sktest 命令 接受 了 数据 呈 
正 态 分 布 的 原始 假设 。 从 偏 度 上 看 ，Pr(Skewness) 为 0.4418， 大 于 0.05， 接 受 正 态 分 布 的 原 假 
设 ; 从 峰 度 上 看 ，Pr(Kurtosis) 为 0.9062， 大 于 0.05， 接 受 正 态 分 布 的 原 假 设 ; 把 两 者 结合 在 一 
起 考虑 ， 从 整体 上 看 ，Prob>chi2 为 0.7293， 大 于 0.05， 接 受 正 态 分 布 的 原 假设 。 

图 3.10 是 对 数据 执行 自然 对 数 变 换 方法 ， 以 获取 新 的 数据 并 进行 正 态 分 布 检验 的 结果 。 


generate 1sum ln(sum) 


sktest lsum 


Skewness/Kurtosis tests for Normality 


joint 
si | ‘Obs PrlSkewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 


图 3.10 分 析 结 果 图 
通过 观察 分 析 图 ， 我 们 可 以 比较 轻松 地 得 出 分 析 结论 。 本 例 中 ，sktest 命令 接受 了 数据 呈 
正 态 分 布 的 原始 假设 。 从 偏 度 上 看 ，Pr(Skewness) 为 0.0462， 小 于 0.05， 拒 绝 正 态 分 布 的 原 假 
设 ; 从 峰 度 上 看 ，Pr(Kurtosis) 为 0.2609， 大 于 0.05， 接 受 正 态 分 布 的 原 假设 ， 把 两 者 结合 
起 考虑 ， 从 整体 上 看 ，Prob>chi2 为 0.0774， 大 于 0.05， 接 受 正 态 分 布 的 原 假设 。 


3.2.5 ”案例 延伸 

上 述 的 Stata 命令 比较 简洁 ， 分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 

1. 延伸 1: 有 针对 性 地 对 数据 进行 变换 

我 们 在 进行 数据 分 析 时 ， 在 对 初始 数据 进行 正 态 性 检验 后 ， 可 以 利用 3.1 节 的 相关 知识 ， 
得 到 关于 数据 偏 度 和 峰 度 的 信息 , 我们 完全 可 以 根据 数据 信息 的 偏 态 特 征 进行 有 针对 性 的 数据 
变换 。 数 据 变换 与 其 对 应 的 Stata 命令 以 及 达到 的 效果 如 表 3.4 所 示 。 

表 3.4 数据 变换 与 其 对 应 的 Stata 命令 以 及 达到 的 效果 


减少 严重 负 偏 态 
减少 轻 度 负 偏 态 
g 减少 轻 度 正 偏 态 
generate y=In(x) 减少 轻 度 正 偏 态 
g 以 10 为 底 的 对 数 减少 正 偏 态 
减少 严重 正 偏 态 
g 负 倒 数 减少 非 严 重 正 偏 态 
generate y=-(x^-2) 平方 负 倒 数 减少 非 严重 正 偏 态 
generate y=-(x^-3) 立方 负 倒 数 减少 非 严重 正 偏 态 
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2. 延伸 2: 关于 ladder 命令 的 介绍 

此 处 我 们 介绍 一 个 非常 好 用 的 命令 : ladder。 它 把 寡 阶 梯 和 正 态 分 布 检验 有 效 地 结合 到 了 
一 起 。 它 尝试 寡 阶 梯 上 的 每 一 种 宠 并 逐个 反馈 结果 是 否 显著 地 为 正 态 或 者 非 正 态 。 以 本 例 为 例 ， 
操作 命令 如 下 : 


ladder sum 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 3.11 所 示 。 


Y (sum3) 


图 3.11 分 析 结 果 图 


在 该 结果 中 , 我 们 可 以 非常 轻松 地 看 出 , 在 95% 的 置信 水 平 上 , 仅 有 平方 根 变换 square root 
(P(chi2)= 0.729) 以 及 自然 对 数 变 换 log (P(chi2)= 0.077) 是 符合 正 态 分 布 的 ， 其 他 寡 次 的 数 
据 变换 都 不 能 使 数据 显著 地 呈现 正 态 分 布 。 

3. 延伸 3: 关于 gladder 命令 的 介绍 

例如 ， 我 们 要 在 延伸 2 的 基础 上 更 直观 地 看 出 寡 阶 梯 和 正 态 分 布 检验 有 效 结合 的 结果 ， 
那么 操作 命令 就 应 该 相应 地 修改 为 : 


gladder sum 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 3.12 所 示 。 


I ls 


Density 

0.00DO00®0801 

就 可 汪 
rt 

0 20406080100 


图 3.12 分 析 结 果 图 


从 结果 中 可 以 轻松 地 看 出 每 种 转换 的 直方 图 与 正 态 分 布 曲线 ， 与 延伸 2 得 出 的 结论 是 一 
致 的 。 
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3.3 ”实例 三 一 一 单个 分 类 变量 的 汇总 


[总 功能 与 意义 


与 前 面 提 到 的 定 距 变 量 不 同 ， 分 类 变量 的 数值 只 代表 观测 值 所 属 的 类 别 ， 不 代表 其 他 任 
何 含义 。 因此， 对 分 类 变量 的 描述 统计 方法 是 观察 其 不 同类 别 的 频数 或 者 百分数 。 本 节 我 们 将 
介绍 单个 分 类 变量 的 汇总 在 实例 中 的 应 用 。 


3.3.2 ”相关 数据 来 源 


下 载 资源 :\video\chap03\… 


下 载 资源 :\sample\chap03\ 正 文 \ 案 例 3.3.dta 


【 例 3.3】 某 国有 银行 沈阳 分 行人 力 资源 部 对 分 行 本 部 在 岗 职工 的 结婚 情况 进行 了 调查 。 
查 结果 分 为 了 两 类 ， 一 类 代表 结婚 ， 另 一 类 代表 未 婚 或 者 离异 。 统 计数 据 如 表 3.5 所 示 。 试 
对 结婚 情况 这 一 变量 进行 单个 变量 汇总 。 
表 3.5 某 银 行 沈阳 分 行 本 部 在 岗 职工 的 结婚 情况 


编号 | 情况 
! I | 
2 | 罗 | 
3 | 罗 | 
4 EE 
5 昌 | 是 


I 
是 
113 男 是 
114 女 否 
3.3.3 ”Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 两 个 变量 ， 分 别 为 性 
别 和 结婚 情况 。 我 们 把 性 别 变量 设 定 为 gender， 把 结婚 情况 变量 设 定 为 marry， 变 量 类 型 及 长 
度 采取 系统 默认 方式 ， 然 后 录入 相关 数据 。 相 关 操作 我 们 在 第 1 章 中 已 有 详细 讲述 。 录 入 完成 
后 数据 如 图 3.13 所 示 。 
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AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA 


这 加 可 号 世 国 和 了- 
genderl1] 1 


ee ey ~ Variables 


图 3.13 案例 3.3 数据 
先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 骤 如 下 : 


四 进入 Stata 14.0， 打 开 相 关 数据 文件 ， 弹 出 主 界面 。 
加 在 主 界面 的 “Command” 文 本 框 中 输入 命令 : 


tabulate marry 
辆 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


在 Stata 14.0 主 界 面 的 结果 窗口 中 可 以 看 到 如 图 3.14 所 示 的 分 析 结 果 。 


-tabulate marry 


Freq. Percent 


45 39.47 
69 60.53 


114 100.00 


图 3.14 ”曲线 标 绘图 1 


从 分 析 结 果 中 我 们 可 以 看 出 本 次 调查 所 获得 的 信息 。 可 以 发 现 该 银行 的 分 行 本 部 共有 114 
人 参与 了 有 效 调查 ， 其 中 处 于 结婚 状态 的 有 69 位 员工 ， 占 比 60.53%， 处 于 非 结婚 状态 的 有 
45 位 员工 ， 占 比 39.47%。 此 外 ， 结 果 分 析 表 中 Cum. 一 栏 表示 的 是 累计 百分比 。 


3.3.5 ”案例 延伸 


以 本 节 所 介绍 的 案例 为 基础 ， 试 对 结婚 情况 这 一 变量 进行 单个 变量 汇总 并 附 有 星 点 图 。 
操作 命令 应 该 为 : 


tabulate marry,plot 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 3.15 所 示 。 
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图 3.15 分 析 结 果 图 
从 分 析 结 果 中 我 们 可 以 看 出 对 结婚 情况 这 一 变量 进行 单个 变量 汇总 的 结果 以 及 星 点 图 情况 。 


3.4 实例 四 一 一 两 个 分 类 变量 的 列 联 表 分 析 


3.4.1 两 个 分 类 变量 的 列 联 表 分 析 功能 与 意义 


在 上 节 中 ， 我 们 讲述 了 单个 分 类 变量 进行 概要 统计 的 实例 ， 在 本 节 中 ， 我 们 将 以 实例 的 
方式 讲解 一 下 两 个 分 类 变量 是 如 何 进行 概要 统计 的 ， 即 二 维 列 联 表 。 


3.4.2 ”相关 数据 来 源 


B= 下 载 资源 :\ideo\chap03\… 


天 | 下 载 资源 :samplechap03\ 正 文案 例 3.4.dta 


【 例 3.4 为 研究 A 市 居民 的 身体 情况 ， 某 课题 组 对 A 市 居民 的 吸烟 喝酒 情况 进行 
了 调查 研究 , 调查 得 到 的 数据 经 整理 后 如 表 3.6 所 示 。 试 对 该 数据 资料 进行 二 维 列 联 表 


表 3.6 A 市 居民 的 吸烟 喝酒 情况 


Cad nal [id EM ed 


3.4.3 Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 容 易 发 现 本 例 中 有 3 个 变量 ， 
分 别 是 性 别 、 是 否 吸 烟 以 及 是 否 喝 酒 。 我 们 把 性 别 变量 设 定 为 gender, 把 是 否 吸烟 变量 设 定 为 
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smoke, 把 是 否 喝酒 变量 设 定 为 drink, 变量 类 型 及 长 度 采取 系统 默认 方式 , 然后 录入 相关 数据 。 
相关 操作 我 们 在 第 1 章 中 已 有 详细 讲述 。 录 入 完成 后 数据 如 图 3.16 所 示 。 
先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 又 如 下 : 


进入 Stata 14.0， 打 开 相关 数据 文件 ， 弹 出 主 界面 。 
在 主 界面 的 “Command” 文 本 框 中 输入 命令 : 


tabulate smoke drink 
设置 完毕 后 ， 按 键盘 上 的 回 车 键 , 等待 输出 结果 。 


Fle Edit View Data Tools 
芒 日 各 包 总 加 当 了 ; 
genderl!] 1 


i 
“ 国 
目 ， 


图 3.16 “案例 3.4 数据 


3.4.4 结果 分 析 


在 Stata 14.0 主 界面 的 结果 窗口 我 们 可 以 看 到 如 图 3.17 所 示 的 分 析 结 果 。 


. tabulate smoke drink 


3.17 分 析 结 果 图 


从 分 析 结 果 中 可 以 看 出 本 次 调查 所 获得 的 信息 : 发 现 共有 124 位 A 市 居民 参与 了 有 效 调 
查 ， 其 中 有 68 人 吸烟 ， 有 56 人 不 吸烟 ， 有 41 人 喝酒 ， 有 83 人 不 喝酒 ， 具 体 来 说 ， 既 吸烟 又 
喝酒 的 居民 人 数 为 29 人 ， 不 吸烟 也 不 喝酒 的 居民 人 数 为 44 人 ， 只 吸烟 不 喝酒 的 居民 人 数 为 
39 人 ， 只 喝酒 不 吸烟 的 居民 人 数 为 12 人 。 
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3.4.5 “案例 延伸 
上 述 的 Stata 命令 比较 简洁 ， 分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 


延伸 : 显示 每 个 单元 格 的 列 百 分 比 与 行 百分比 
在 本 节 的 例子 中 ， 操 作 命 令 应 该 相应 地 修改 为 : 


tabulate smoke drink,column row 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 3.18 所 示 。 


Rey 


frequency 
Fow percentage 
column percentage 


4 12 
78.57 21.43 
53.01 29.27 


39 29 
57.35 42.65 
46.99 70.73 


83 31 
66.94 33.06 
100.00 100.00 


3.18 分 析 结 果 图 


分 析 结 果 表 中 的 单元 格 包括 3 部 分 信息 ， 其 中 第 1 行 表示 的 是 频数 ， 第 2 行 表示 的 是 行 
百分比 , 第 3 行 表示 的 是 列 百分比 。 例 如， 最 左上 角 的 单元 格 的 意义 是 : 不 吸烟 也 不 喝酒 的 样 
本 个 数 有 44 个 , 这 部 分 样本 在 所 有 不 吸烟 的 样本 中 占 比 为 78.57%、 在 所 有 不 喝酒 的 样本 中 占 
比 为 53.01%。 


3.5 ”实例 五 一 一 多 表 和 多 维 列 联 表 分 析 


对 于 一 些 大 型 数据 集 ， 我 们 经 常 需要 许多 不 同 变量 的 频数 分 布 。 那 么 如 何 快速 简单 地 实 
现 这 一 目的 呢 ? 这 就 需要 用 到 Stata 的 多 表 和 多 维 列 联 表 分 析 功 能 。 下 面 我 们 就 以 实例 的 方式 
来 介绍 这 一 强大 功能 。 
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3.5.2 ”相关 数据 来 源 


DB | ramaveeocopo. 


[3 下 载 资源 :\sample\chap03\ 正 文案 例 3.5.dta 


-3 


【 例 3.5】 某 高 校 经 济 学 院 针 对 其 研究 生 学 生 的 持 有 证 书 情况 进行 了 调查 。 证 书 分 为 3 类 ， 
包括 会 计 师 证 书 、 审 计 师 证 书 、 经 济 师 证 书 。 数 据 经 整理 汇总 后 如 表 3.7 所 示 。 试 使 用 Stata 14.0 
对 数据 进行 以 下 操作 : 四 对 数据 中 的 所 有 分 类 变量 进行 单个 变量 汇总 统计 ; @ 对 数据 中 的 所 有 
分 类 变量 进行 二 维 列 联 表 分 析 ; @ 以 是 否 持 有 会 计 师 证 书 为 主 分 类 变量 , 制作 3 个 分 类 变量 的 
三 维 列 联 表 。 


表 3.7 某 高 校 经 济 学 院 的 研究 生 学 生 持 有 证 书 情况 
编号 | 性 别 ”| 是 否 持 有 会 计 师 证 书 是 否 持 有 审计 师 证 书 是 否 持 有 经 济 师 证 书 


3.5.3 Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 4 个 变量 ， 分 别 是 性 
别 、 是 否 持 有 会 计 师 证 书 、 是 否 持 有 审计 师 证 书 以 及 是 否 持 有 经 济 师 证 书 。 我 们 把 性 别 变 量 设 
定 为 gender， 把 是 否 持 有 会 计 师 证 书 设 定 为 account， 把 是 否 持 有 审计 师 证 书 设 定 为 audit， 把 
是 否 持 有 经 济 师 证 书 设 定 为 economy, 变量 类 型 及 长 度 采取 系统 默认 方式 , 然后 录入 相关 数据 。 
相关 操作 我 们 在 第 1 章 中 已 有 详细 讲述 。 录 入 完成 后 数据 如 图 3.19 所 示 。 

先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 骤 如 下 : 

进入 Stata 14.0， 打 开 相关 数据 文件 ， 弹 出 主 界面 。 

加 在 主 界面 的 “Command” 文 本 框 中 输入 操作 命令 并 按键 盘 上 的 回 车 键 进行 确认 。 对 
应 的 命令 分 别 如 下 。 


。 tabl account audit economy: 本 命令 的 含义 是 对 数据 中 的 所 有 分 类 变量 进行 单个 变量 
汇总 统计 。 
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tab2 account audit economy: 本 命令 的 含义 是 对 数据 中 的 所 有 分 类 变量 进行 二 维 列 联 
表 分 析 。 

。 by account,sort:tabulate audit economy: 本 命令 的 含义 是 以 是 否 持 有 会 计 师 证 书 为 主 
分 类 变量 ， 制 作 3 个 分 类 变量 的 三 维 列 联 表 。 


= = 
EE i -ES.dolen ee ee ee = 
File Edit View Data Tools 
ED LE EEE 和 ES 
gender[1] 0 
tee comer atc corneay Variables | 
本 En = 所 Filter variables here 
2 3 | 
回 Name Label 
中 -ae | 
le BF gender 
ES 古寺 二 于 二 二 Waccount 
se 到 可 me Waudit 
= 下 | 
me be be 车 variables Snapshots 
站 一 
a 
| 
了 ae ye me am 日 Variabl 险 
一 这 > Name gender 
2 ae ra ys Label 
| EE 加 加 Type byte 
i sm Format %aog 
ye Ll = Value label Sexlbl 
二 ie 加 | |Nores 
‘ | ee 9 
Ready Vars:4 Order Dataset Obs:99 Filter:Of Mode: Edit CAF NUM ， 


图 3.19 案例 3.5 数据 


3.5.4 结果 分 析 


在 Stata 14.0 主 界面 的 结果 窗口 我 们 可 以 看 到 如 图 3.20~ 图 3.22 所 示 的 分 析 结 果 。 


tabl account audit economy 


> tabulation of account 


account Freq. Percent Cum. 
no 40 40.40 40.40 
yes 59 59.60 100.00 
Tocal 99 100.00 
> tabulation of audit 
audit Freq. Percent Cum, 
no 75 75.76 75.76 
yes 24 24.24 100.00 
Tocal 99 100.00 
> tabulation of economy 
economy Freq. Percent Cum. 
no 72 72.73 72.73 
yes 27 27.27 100.00 
Total 99 100.00 


图 3.20 分 析 结 果 图 


图 3.20 是 对 数据 中 的 所 有 分 类 变量 进行 单个 变量 汇总 统计 的 结果 。 
从 分 析 结 果 中 我 们 可 以 看 出 本 次 调查 所 获得 的 信息 : 发 现 该 学 校 经 济 学 院 的 研究 生 学 生 
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中 共有 99 人 参与 了 有 效 调查 ,其 中 拥有 会 计 师 证 书 的 有 59 位 学 生 , 在 99 名 学 生 中 占 比 59.6%; 
拥有 审计 师 证 书 的 有 24 位 学 生 , 在 99 名 学 生 中 占 比 24.24%; 拥有 经 济 师 证 书 的 有 27 位 学 生 ， 
在 99 名 学 生 中 占 比 27.27%。 此 外 ， 结 果 分 析 表 中 Cum. 一 栏 表示 的 是 累计 百分比 。 

图 3.21 是 对 数据 中 的 所 有 分 类 变量 进行 二 维 列 联 表 分 析 的 结果 。 


aaa 
account no yes Tocal 
32 a 40 

ye: 43 16 59 
Total 75 24 9 


> tabalation of account by oconomy 


accoune ao yea Total 
30 10 40 

vy 42 17 59 
Total 72 27 99 


> tabulation of audit by economy 
econar my 
di mo yes Total 
60 15 35 
8 12 12 24 


3.21 分 析 结 果 图 


从 分 析 结 果 中 我 们 可 以 看 出 本 次 调查 所 获得 的 信息 : 分 析 结 果 中 包括 3 张 二 维 列 联 表 ， 
第 1 张 是 变量 “audit” 与 变量 “account” 的 二 维 列 联 分 析 ， 第 2 张 是 变量 “economy” 与 变量 
“account” 的 二 维 列 联 分 析 ， 第 3 张 是 变量 “audit” 与 变量 “economy” 的 二 维 列 联 分 析 。 关 
于 二 维 列 联 表 的 解读 ， 我 们 在 上 节 的 实例 中 已 经 讲述 过 ， 不 再 歼 述 。 

图 3.22 是 以 是 否 持 有 会 计 师 证 书 为 主 分 类 变量 ， 制 作 3 个 分 类 变量 的 三 维 列 联 表 的 结果 。 


图 3.22 分 析 结 果 图 
该 分 析 结果 是 一 张 三 维 列 联 表 ， 包 括 两 部 分 : 上 半 部 分 描述 的 是 当 “account” 变 量 取 值 
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为 “no” 的 时 候 , 变量 “audit” 与 变量 “economy ”的 二 维 列 联 分 析 ; 下 半 部 分 描述 的 是 当 “account” 
变量 取 值 为 “yes” 的 时 候 ， 变 量 “audit” 与 变量 “economy” 的 二 维 列 联 分 析 。 


3.5.5 ”案例 延伸 


上 述 的 Stata 命令 比较 简洁 ， 分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 

在 这 里 我 们 介绍 一 个 用 于 多 维 列 联 分 析 的 Stata 命令 一 一 table。 这 是 一 个 多 功能 的 命令 ， 
可 以 实现 多 种 数据 的 频数 、 标 准 差 数 据 特征 的 列 联 分 析 。 例 如 ,我 们 要 进行 简单 的 频数 列 联 分 
析 ， 那 么 操作 命令 就 应 该 相应 地 修改 为 : 


table account audit economy contents (freq) 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 3.23 所 示 。 


. table account audit economy,contents(freq) 


economy and audic 
一 mm 一 一 yes 一 
no yes 


26 4 
34 8 


图 3.23 分 析 结 果 图 
本 结果 分 析 图 的 解读 方式 与 前 面 类 似 ， 这 里 不 再 效 述 。 
上 述 命 令 中 contents 括号 里 的 内 容 表 示 的 是 频数 , 该 括号 内 支持 的 内 容 与 命令 符号 的 对 应 
关系 如 表 3.8 所 示 。 


表 3.8 contents 括号 里 支持 的 内 容 与 命令 符号 的 对 应 关系 


命令 符号 。 ”| 括号 内 支持 的 内 容 命令 符号 。 ”| 括号 内 支持 的 内 容 
mx | 
[ax | xm 郑 ET EI 
[es | eax | smaw | 
mm | | 
max x x 的 最 大 值 iqr x x 的 四 分 位 距 

sum x | x 的 总 和 plx x 的 第 1 个 百 分 位 数 | 


3.6 ”本 章 习 题 


(1) 为 了 解 我 国 各 地 区 的 运营 线路 网 的 长 度 情况 ， 某 课题 组 搜集 整理 了 2009 年 我 国 31 
个 省 市 的 运营 线路 网 长 度 的 有 关 数 据 ， 如 表 3.9 所 示 。 试 通过 对 数据 进行 基本 描述 性 分 析 来 了 
解 我 国 31 个 省 市 的 运营 线路 网 长 度 的 基本 情况 。 
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表 3.9 2009 年 我 国 31 个 省 市 的 运营 线路 网 长 度 的 有 关 数 据 


地 区 运营 线路 网 长 度 / 千 米 
北京 228 

天 津 759 

河北 8410 

山西 8710 

内 蒙古 2810 

青海 1057 

宁夏 2708 

新 疆 4241 


(2) 为 了 解 我 国 各 地 区 公共 交通 运营 情况 ， 某 课题 组 搜集 整理 了 我 国 2009 年 各 省 市 出 
租车 辆 运营 的 数据 ， 如 表 3.10 所 示 。 试 使 用 Stata 14.0 对 数据 进行 以 下 操作 : 四 对 该 数据 进行 
正 态 分 布 检验 ; @ 对 数据 执行 平方 根 变换 方法 ,以 获取 新 的 数据 并 进行 正 态 分 布 检 验 ; @ 对 数 
据 执 行 自然 对 数 变换 方法 ， 以 获取 新 的 数据 并 进行 正 态 分 布 检 验 。 


表 3.10 我 国 2009 年 各 省 市 出 租车 辆 运营 数据 


地 区 年 末 出 租车 辆 运营 数 / 辆 
北京 66 646 

天 津 31 940 

河北 46 597 

山西 28 729 

内 蒙古 43 084 

青海 7041 

宁夏 12 582 

新 疆 24 650 


(3) 某 会 计 师 事务 所 针对 其 员工 CPA 证 书 的 持 证 情况 进行 了 调查 。 调 查 结果 分 为 两 类 ; 
-类 代表 通过 CPA 考试 ， 另 一 类 代表 未 通过 CPA 考试 。 统 计数 据 如 表 3.11 所 示 。 试 对 是 否 
通过 CPA 考试 这 一 变量 进行 单个 变量 汇总 。 


表 3.11 某 会 计 师 事 务 所 在 岗 员工 CPA 证 书 的 持 证 情况 


编号 性 别 | 通过 CPA 考 试 情况 
1 男 否 

;4 

3 

4 

5 

127 

128 

129 


(4) 某 企业 面临 经 营 困境 ， 准 备 进行 深刻 而 彻底 的 变革 。 在 变革 前 其 对 企业 员工 针对 降 


66 


\\\ 
WANAV 


第 3 章 、Stata 描 述 统计 


薪 、 降 级 情况 进行 了 调查 研究 ， 调 查 得 到 的 数据 经 整理 后 如 表 3.12 所 示 。 试 对 该 数据 资料 进 
行 二 维 列 联 表 分 析 。 


表 3.12 ” 某 企业 员工 针对 改革 措施 的 看 法 


己 
Ey: 


美术 。 数 据 经 整理 汇总 后 如 表 3.13 所 示 。 试 使 用 Stata 14.0 对 数据 进行 以 下 操作 : 中 对 数据 中 


性 别 是 否 支 持 降 薪 决定 是 否 支 持 降级 决定 
女 是 
女 是 
女 是 
男 是 
男 是 
女 是 
男 是 
女 否 


(5) 某 艺术 学 校 针 对 其 学 生 的 特长 情况 进行 了 调查 。 特 长 分 为 3 类， 包括 音乐 、 体 育 、 


的 所 有 分 类 变量 进行 单个 变量 汇总 统计 ;，@ 对 数据 中 的 所 有 分 类 变量 进行 二 维 列 联 表 分 析 ; 


@ 以 是 否 具有 音乐 特长 为 主 分 类 变量 ， 制 作 3 个 分 类 变量 的 三 维 列 联 表 。 
表 3.13 某 艺 术 学 校 学 生 的 特长 情况 
编号 性 别 
1 男 
2 女 
3 女 
4 女 
5 女 
98 女 
99 英 
100 男 
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参数 检验 (Parameter Test) 是 指 对 参数 的 平均 值 、 方 差 、 比 率 等 特征 进行 的 统计 检验 。 
参数 检验 一 般 假 设 统计 总 体 的 具体 分 布 为 已 知 , 但 是 其 中 的 一 些 参数 或 者 取 值 范 围 不 确定 , 分 
析 的 主要 目的 是 估计 这 些 未 知 参数 的 取 值 , 或 者 对 这 些 参 数 进行 假设 检验 。 参数 检验 不 仅 能 够 
对 总 体 的 特征 参数 进行 推断 , 还 能 够 对 两 个 或 多 个 总 体 的 参数 进行 比较 。 常 用 的 参数 检验 包括 
单一 样本 T 检验 、 独 立 样本 T 检验 、 配 对 样本 T 检验 、 单 一 样本 方差 和 双 样 本 方差 的 假设 检 
验 等 。 下 面 我 们 通过 实例 的 方式 一 一 介绍 这 几 种 方法 在 Stata 14.0 中 的 具体 操作 。 


4.1 实例 一 一 单一 样本 T 检 验 
4.1.1 单一 样本 T 检验 的 功能 与 意义 


单一 样本 T 检 验 (One-Samples T Test) 是 假设 检验 中 最 基本 也 是 最 常用 的 方法 之 一 。 与 
所 有 的 假设 检验 一 样 ， 其 依据 的 基本 原理 也 是 统计 学 中 的 “小 概率 反 证 法 ”原理 。 通 过 单一 样 
本 T 检验 ， 我 们 可 以 实现 样本 均值 和 总 体 均值 的 比较 。 检 验 的 基本 程序 是 首先 提出 原 假设 和 
备 择 假设 ， 规 定好 检验 的 显著 性 水 平 ， 然 后 确定 适当 的 检验 统计 量 ， 并 计算 检验 统计 量 的 值 ， 
最 后 依据 计算 值 和 临界 值 的 比较 结果 做 出 统计 决策 。 


4.1.2 ”相关 数据 来 源 


下 载 资源 :\ideo\chap04\… 


下 载 资源 :\sample\chap04\ 正 文 \ 案 例 4.1.dta 


【 例 4.1】 河南 省 某 高 校 5 年 前 对 大 四 学 生体 检 时 ， 发 现 学 生 的 平均 体重 是 67.4kg。 最 近 
又 抽查 测量 了 该 校 53 名 大 四 学 生 的 体重 ， 如 表 4.1 所 示 。 试用 Stata 14.0 的 单一 样本 了 检验 操 
作 命 令 判断 该 校 大 四 学 生 的 体重 与 5 年 前 相 比 是 否 有 显著 差异 〈 设 定 显著 性 水 平 为 5%) 。 


表 4.1 河南 省 某 高 校 53 名 大 四 学 生 的 体重 表 


编号 体重 /kg 
001 62.7 
002 573 
003 52.6 


004 61.8 


\ MN 
AAAN NANN 
NN 
AAA \\\ 


数 检验 
WN 


( 续 表 ) 
编号 体重 /kg 


051 


51.2 
052 63.6 
053 64.5 


4.1.3 Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 一 个 变量 : 体重 。 我 


们 把 体重 变量 设 定 为 weight， 变量 类 型 及 长 度 采取 系统 默认 方式 , 然后 录入 相关 数据 。 相 关 操 
作 我 们 在 第 1 章 中 已 有 详细 讲述 。 录 入 完成 后 数据 如 图 4.1 所 示 。 


ee 


一 -~ -一 一 ~ | 


图 4.1 案例 4.1 数据 
先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 骤 如 下 : 


进入 Stata 14.0， 打 开 相关 数据 文件 ， 弹 出 主 界面 。 
加 在 主 界面 的 “Command” 文 本 框 中 输入 命令 : 


ttest weight=67.4 
加 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 
4.1.4 结果 分 析 


在 Stata 14.0 主 界面 的 结果 窗口 我 们 可 以 看 到 如 图 4.2 所 示 的 分 析 结 果 。 


Ba: mean 1 


67.4 
BelITI > Ie) = 0.0000 


4.2 分 析 结 果 图 
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58.61887， 标 准 差 是 5.165159， 方 差 的 标准 误 是 0.7094891，95% 的 置信 区 间 是 [57.19517， 
60.04256]， 样 本 的 t 值 为 -12.3767， 自 由 度 为 52，Pr(|T| > It) = 0.0000， 远 小 于 0.05， 需 要 拒绝 
原 假设 ， 也 就 是 说 ， 该 校 大 四 学 生 的 体重 与 5 年 前 相 比 有 显著 差异 。 


4.1.5 ”案例 延伸 


上 述 的 Stata 命令 比较 简洁 ,分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 

例如 ， 我 们 要 把 显著 性 水 平 调 到 1%， 也 就 是 说 置信 水 平 为 99%， 那 么 操作 命令 可 以 相应 
地 修改 为 : 

ttest weight=67.4,1level (99) 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 4.3 所 示 。 


ttest weight=67.4,level(99) 


One-sample t test 


Variable Obs Nean Std. Err. Std,. Dev. [99* Conf. Interval] 


veight 53 58.61887 .7094891 5.165159 56.72188 60.51585 


mean = mean (weight) 5 = -12.3767 
Ho: mean = 67.4 degrees of freedom = 52 


Ha: mean < 67.4 Ha: mean != 67.4 Ha: mean > 67.4 
PrlT < c) = 0.0000 PrtITI > Itl) = 0.0000 Pr(T > t) = 1.0000 


图 4.3 分 析 结 果 图 


从 上 面 的 分 析 结 果 中 可 以 看 出 与 95% 的 置信 水 平 不 同 的 地 方 在 于 置信 区 间 得 到 了 进一步 
的 放大 ， 这 是 正常 的 结果 ， 因 为 这 是 要 取得 更 高 置信 水 平 所 必须 付出 的 代价 。 


4.2 实例 二 


4.2.1 ”独立 样本 T 检验 的 功能 与 意义 


独立 样本 T 检 验 


Stata 的 独立 样本 T 检验 过 程 (Independent-Samples T Test) 也 是 假设 检验 中 最 基本 、 最 常 
用 的 方法 之 一 。 跟 所 有 的 假设 检验 一 样 ， 其 依据 的 基本 原理 也 是 统计 学 中 的 “小 概率 反 证 法 ” 
原理 。 通 过 独立 样本 T 检验 ， 我 们 可 以 实现 两 个 独立 样本 的 均值 比较 。 独 立 样本 T 检验 过 程 
的 基本 程序 也 是 首先 提出 原 假设 和 备 择 假 设 , 规定 好 检验 的 显著 性 水 平 , 然后 确定 适当 的 检验 
统计 量 ， 并 计算 检验 统计 量 的 值 ， 最 后 依据 计算 值 和 临界 值 的 比较 结果 做 出 统计 决策 。 
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B= 下 载 资源 :\Wideo\chap04\… 


国 | 下 载 资源 \sample\chap04\ 正 文案 例 4.2.dta 


【 例 4.2】 表 4.2 给 出 了 A、B 两 所 学 校 各 40 名 高 三 学 生 的 高 考 英语 成 绩 。 试 用 独立 样本 
T 检验 方法 研究 两 所 学 校 被 调查 的 高 三 学 生 的 高 考 英语 成 绩 之 间 有 无 明显 的 差别 ( 设 定 显著 性 
水 平 为 5%) 。 


表 4.2 A、B 两 所 学 校 各 40 名 高 三 学 生 的 高 考 英语 成 绩 


编号 
001 
002 
003 


005 


078 
079 
080 


4.2.3 ”Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 两 个 变量 ， 分 别 是 A 
学 校 高 考 英语 成 绩 和 B 学 校 高 考 英语 成 绩 。 我 们 把 A 学 校 高 考 英语 成 绩 变 量 设 定 为 englishA， 
把 B 学 校 高 考 英语 成 绩 变量 设 定 为 englishB, 变量 类 型 及 长 度 采取 系统 默认 方式 , 然后 录入 相 
关 数 据 。 相 关 操 作 我 们 在 第 1 章 中 已 有 详细 讲述 。 录 入 完成 后 数据 如 图 4.4 所 示 。 


{Date earor tan - N42dtal | 
Nrie aa View pa Took 
EL EE 
| englshAD 145 
| Variables 

aa A iner variah 

ome llabel 

己 englshA 

engiahe 


Ready Vars: 2 Onder: Dataset Obs: 40 
上 


图 4.4 案例 4.2 数据 
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先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 骤 如 下 : 


进入 Stata 14.0， 打 开 相 关 数据 文件 ， 弹 出 主 界面 。 
加 在 主 界面 的 “Command” 文 本 框 中 输入 操作 命令 ， 并 按键 盘 上 的 回 车 键 进行 确认 。 
本 例 中 对 应 的 命令 如 下 : 


ttest englishA = englishB, unpaired 


4.2.4 结果 分 析 


在 Stata 14.0 主 界面 的 结果 窗口 我 们 可 以 看 到 如 图 4.5 所 示 的 分 析 结 果 。 


ttest englishA=englishB,unpaired 
Two-sample t test with equal variances 
T 
> 
variable Obs Nean Std. Err. Std. Dev. [95* Conf. Interval] 
englishh 40 135.175 1.850463 11.70336 131.4321 138,9179 
englishB 40 104.95 1.09717 6.939112 102.7308 107.1692 
combined 80 120.0625 2.008317 17.96293 116.065 124.06 
di 了 30.225 -2.151278 25.94213 34.50787 
diff = meanlenglishA) — mean(englishB) t= 14.0498 
Ho: diff = 0 degrees of freedom = 78 
Ha: dif£f < 0 Ha: diff != 0 Ha: diff > 0 
PrtT < t) = 1.0000 Pr(lT| > Itl) = 0.0000 Pr(T > t) = 0.0000 


图 4.5 分 析 结 果 图 
通过 观察 分 析 结 果 ， 我 们 可 以 看 出 共有 80 个 有 效 样本 参与 了 假设 检验 ， 自 由 度 为 78, 其 
中 变量 englishA 包括 40 个 样本 ， 均 值 为 135.175， 标 准 差 为 11.70336， 标 准 误 为 1.850463， 
95% 的 置信 区 间 是 [131.4321,138.9179]; 变量 englishB 包括 40 个 样本 ,均值 为 104.95， 标 准 差 
为 6.939112， 标 准 误 为 1.09717，95% 的 置信 区 间 是 [102.7308,107.1692]。Pr(IT| > lt) = 0.0000 
远 小 于 0.05， 需 要 拒绝 原 假设 ， 也 就 是 说 , 两 所 学 校 被 调查 的 高 三 学 生 的 高 考 英语 成 绩 之 间 存 
在 明显 的 差别 。 


4.2.5 “案例 延伸 


上 述 的 Stata 命令 比较 简洁 ， 分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 


1. 延伸 1: 改变 置信 水 平 
与 单一 样本 T 检验 类 似 ， 例 如 我 们 要 把 显著 性 水 平 调 到 1%， 也 就 是 说 置信 水 平 为 99%， 
那么 操作 命令 可 以 相应 地 修改 为 : 


ttest englishA=englishB,unpaired level (99) 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 4.6 所 示 。 
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Std. Dev. [994 Conf. Intecvell 


0 135.175 -1.8504 336 130.1641 。 140.1859 
0 104.95 1.09717 5.939112 101.979 107,921 


| 0 20.0625 2.000317 17.96293 114.7615 125.3635 


| ae 30.225 2.151278 24.54489 35.90511 


if = meanfengliehi ~ mesnlengliehB) 
lm: aitz = 0 Gegrees of zr 


图 4.6 分 析 结 果 图 
从 上 面 的 分 析 结 果 中 可 以 看 出 与 95% 的 置信 水 平 不 同 的 地 方 在 于 置信 区 间 得 到 了 进一步 
的 放大 ， 这 是 正常 的 结果 ， 因 为 这 是 要 取得 更 高 置信 水 平 所 必须 付出 的 代价 。 
2. 延伸 2: 在 异 方差 假定 条 件 下 进行 假设 检验 
上 面 的 检验 过 程 是 假定 两 个 样本 代表 的 总 体 之 间 存 在 相同 的 方差 ， 如 果 假 定 两 个 样本 代 
表 的 总 体 之 间 的 方差 并 不 相同 ， 那 么 操作 命令 可 以 相应 地 修改 为 : 


ttest englishA=englishB,unpaired level(99) unequal 


EA 结果 如 图 4.7 所 示 。 


Std. Dev.  [s9+t Conf, Interval 


139.179 。 1.830463 11.70335 130,1641 
104,95 1.09717 6.939112 101.979 


120.0625 2.000317 17.96293 114.7615 


30.225 -2.151278 24.51203 


图 4.7 分 析 结 果 图 
可 以 看 出 在 本 例 中 同方 差 假定 和 异 方差 假定 之 间 的 结果 没有 差别 。 


4.3 ”实例 三 一 一 配对 样本 T 检 验 


4.3.1 ”配对 样本 T 检验 的 功能 与 意义 


Stata 的 配对 样本 T 检验 过 程 (Paired-Samples T Test) 也 是 假设 检验 中 的 方法 之 一 。 与 所 
有 的 假设 检验 一 样 ， 其 依据 的 基本 原理 也 是 统计 学 中 的 “小 概率 反 证 法 ”原理 。 通 过 配对 样本 
T 检验 ,我 们 可 以 实现 对 成 对 数据 的 样本 均值 比较 。 其 与 独立 样本 T 检验 的 区 别 是 : 两 个 样本 
来 自 于 同一 总 体 ， 而 且 数 据 的 顺序 不 能 调换 。 配 对 样本 T 检验 过 程 的 基本 程序 也 是 首先 提出 
原 假设 和 备 择 假 设 , 规定 好 检验 的 显著 性 水 平 , 然后 确定 适当 的 检验 统计 量 , 并 计算 检验 统计 
量 的 值 ， 最 后 依据 计算 值 和 临界 值 的 比较 结果 做 出 统计 决策 。 
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相关 数据 来 源 


B= 下 载 资源 :Wideo\chap04\… 


醒 下 载 资源 \sample\chap04\ 正 文案 例 4.3.dta 


【 例 4.3】 为 了 研究 一 种 减肥 药品 的 效果 ， 特 抽取 了 30 名 试验 者 进行 试验 ， 服 用 该 产品 
-个 疗程 前 后 的 体重 如 表 4.3 所 示 。 试 用 配对 样本 T 检 验 的 方法 判断 该 药物 能 否 引 起 试验 者 体 
重 的 明显 变化 《〈 设 定 显著 性 水 平 为 %) 。 
表 4.3 试验 者 服药 前 后 的 体重 (单位: kg) 
88 
76 
32 


4 


[1% lee 
| 
[or vv ln | 

Iz24 5 | 
050 [56 lo | 


78.1 


4.3.3 ”Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 两 个 变量 ， 分 别 是 服 

药 前 体重 和 服药 后 体重 。 我 们 把 服药 前 体重 变量 设 定 为 qian， 把 服药 后 体重 变量 设 定 为 hou， 

变量 类 型 及 长 度 采取 系统 默认 方式 , 然后 录入 相关 数据 。 相 关 操作 我 们 在 第 1 章 中 已 有 详细 讲 
述 。 录 入 完成 后 数据 如 图 4.8 所 示 。 

TT tt 


MN Fae Ect vew Data Toots 
巴 加 了 - 


图 4.8 案例 4.3 数据 
先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 又 如 下 : 
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贺 在 主 界面 的 “Command” 文 本 框 中 输入 命令 : 


ttest qian=hou 


国 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


在 Stata 14.0 主 界面 的 结果 窗口 我 们 可 以 看 到 如 图 4.9 所 示 的 分 析 结果 。 


CE 


larianie 


0 8.299999 .6677101 4.721423 。 6.958186 


pan (ian 
o degrees ol 


图 4.9 分 析 结 果 图 

通过 观察 分 析 结 果 ， 我 们 可 以 看 出 共有 50 对 有 效 样本 参与 了 假设 检验 ， 自 由 度 为 48, 其 
中 变量 qian 包括 50 个 样本 ， 均 值 为 80.93， 标 准 差 为 5.406543， 标 准 误 为 0.7646007，95% 的 
置信 区 间 是 [79.39348,82.46652]; 变量 hou 包括 50 个 样本 ,均值 为 72.63， 标准 差 为 3.634037， 
标准 误 为 0.5139305, 95% 的 置信 区 间 是 [71.59722,73.66278]。Pr(|T| > lt) = 0.0000, 远 小 于 0.05， 
所 以 需要 拒绝 原 假设 ， 也 就 是 说 ， 该 药物 能 引起 试验 者 体重 的 明显 变化 。 


4.3.5 ”案例 延伸 


上 述 的 Stata 命令 比较 简洁 ， 分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 

与 单一 样本 工 检 验 类 似 ， 例 如 我 们 要 把 显著 性 水 平 调 到 1%， 也 就 是 说 置信 水 平 为 99%， 
那么 操作 命令 可 以 相应 地 修改 为 : 


ttest qian=hou,level (99) 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 4.10 所 示 。 


ttest qianhou,level(99) 


图 4.10 分 析 结 果 图 
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从 上 面 的 分 析 结 果 中 可 以 看 出 与 95% 的 置信 水 平 不 同 的 地 方 在 于 置信 区 间 得 到 了 进一步 
的 放大 ， 这 是 正常 的 结果 ， 因 为 这 是 要 取得 更 高 置信 水 平 所 必须 付出 的 代价 。 


4.4 实例 四 一 一 单一 样本 方差 的 假设 检验 


4.4.1 单一 样本 方差 假设 检验 的 功能 与 意义 


方差 的 概念 用 来 反映 波动 情况 ， 常 用 于 质量 控制 与 市 场 波动 等 情形 。 单 一 总 体 方差 的 假 
设 检 验 的 基本 程序 也 是 首先 提出 原 假设 和 备 择 假设 , 规定 好 检验 的 显著 性 水 平 , 然后 确定 适当 
的 检验 统计 量 ， 并 计算 检验 统计 量 的 值 ， 最 后 依据 计算 值 和 临界 值 的 比较 结果 做 出 统计 决策 。 


4.4.2 ”相关 数据 来 源 


下 载 资 源 :\ideo\chap04\… 


下 载 资 源 :\sample\chap04\ 正 文 \ 案 例 4.4.dta 


【 例 4.4】 为 研究 某 只 股票 的 收益 率 波动 情况 ， 某 课题 组 对 该 只 股票 连续 60 天 的 收益 率 
情况 进行 了 调查 研究 ， 调 查 得 到 的 数据 经 整理 后 如 表 4.4 所 示 。 试 对 该 数据 资料 进行 假设 检验 
其 方差 是 否 等 于 1( 设 定 显著 性 水 平 为 5%) 


表 4.4 某 只 股票 的 收益 率 波动 情况 


0.290 384 
-0.628 38 


4.4.3 ”Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 一 个 变量 : 收益 率 。 
我 们 把 收益 率 变量 设 定 为 returmm， 变 量 类 型 及 长 度 采取 系统 默认 方式 ， 然 后 录入 相关 数据 。 相 
关 操作 我 们 在 第 1 章 中 已 有 详细 讲述 。 录 入 完成 后 数据 如 图 4.11 所 示 。 


76 


WAN NANNN UN 
、 | 信人 
江 江 VANAN\ \\ \\\ \ \ \\\ WAAAAAAAAAAAAAAAAAAAAAAAAAAAI 检验 、 AN 


总 日 名 忆 忆 国生 了: 


emt] 


图 4.11 案例 4.4 数据 
先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 又 如 下 : 


四 进入 Stata 14.0， 打 开 相 关 数据 文件 ， 弹 出 主 界面 。 
加 在 主 界面 的 “Command” 文 本 框 中 输入 命令 : 


sdtest return=1 


国 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 


在 Stata 14.0 II 4.12 所 示 的 分 析 结 果 。 


Hean std. Err. Sto. Dev. 1958 conz。Incerval] 


60 .2539735 .0621357 .4813014 。 .1296402 .3783059 


sd = sdlretarn) = chiz = 13.6674 
a 1 degrees of frecdon ~ 59 


Ia: sd < 1 Ha: sd != 1 :sd > 
< = 0.0000 2rprlc < cj) = 0.0000 rtc > cl = 1.0000 


图 4.12 分析 结果 图 


通过 观察 分 析 结 果 ， 我 们 可 以 看 出 共有 60 个 有 效 样本 参与 了 假设 检验 ， 自 由 度 为 59, 均 
值 为 0.2539735， 标 准 差 为 0.4813014， 标 准 误 为 0.0621357，95% 的 置信 区 间 是 [0.1296402， 
0.3783069]。2*Pr(C < c) = 0.0000， 远 小 于 0.05， 所 以 需要 拒绝 原 假设 ， 也 就 是 说 ， 该 股票 的 
收益 率 方差 不 显著 等 于 1。 


4.4.5 ”案例 延伸 


例如 ， 我 们 要 把 显著 性 水 平 调 到 1%， 也 就 是 说 置信 水 平 为 99%， 那 么 操作 命令 可 以 相应 
地 修改 为 : 


sdtest return=l, level(99) 


梧 


AN \ Stata 统 计 分 析 与 行业 应 用 案例 详解 第 2 版 ) 


OA 令 人 结果 如 图 4.13 所 示 。 


Dne-sample test of variance 


Variable hs Nean Std. Err. Std. Dev. [99s conf. Interval] 


return 60 .2539735 .0621357 .4813014 .0885832 .4193639 


= 13.6674 
59 


Ha: sd <1 Ha: sd != 1 3 sd > 
Prlc < ce) = 0.0000 2zrFrlc < cl = 0.0000 prtc > c) = 1.0000 


图 4.13 分 析 结 果 图 


从 上 面 的 分 析 结 果 中 可 以 看 出 与 95% 的 置信 水 平 不 同 的 地 方 在 于 : 置信 区 间 得 到 了 进 一 
步 的 放大 ， 这 是 正常 的 结果 ， 因 为 这 是 要 取得 更 高 置信 水 平 所 必须 付出 的 代价 。 


4.5 ”实例 五 一 一 双 样 本 方差 的 假设 检验 


4.5.1， 双 样本 方差 假设 检验 的 功能 与 意义 


双 样本 方差 假设 检验 用 来 判断 两 个 样本 的 波动 情况 是 否 相 同 。 它 的 基本 程序 也 是 首先 提 
出 原 假设 和 备 择 假设 ， 规 定好 检验 的 显著 性 水 平 ， 然 后 确定 适当 的 检验 统计 量 ， 并 计算 检验 统 
计量 的 值 ， 最 后 依据 计算 值 和 临界 值 的 比较 结果 做 出 统计 决策 。 


4.5.2 ”相关 数据 来 源 


3 下 载 资源 :\sample\chap04\ 正 文 \ 案 例 4.5.dta 


【 例 4.5】 为 研究 某 两 只 股票 的 收益 率 波动 情况 是 否 相同 , 某 课 题 组 对 这 两 只 股票 连续 30 
天 的 收益 率 情况 进行 Sd ， 调 查 得 到 的 数据 经 整理 后 如 表 4.5 所 示 。 试 使 用 Stata 14.0 
对 该 数据 资料 进行 假设 ， 检验 其 方差 是 相同 〈 设 定 显著 性 水 平 为 5%) 


表 4.5 某 两 只 股票 的 收益 率 波动 情况 


编号 收益 率 A 收益 率 B 

1 
六 0.643 221 0.699 069 

3 0.557 802 0.232 269 

4 0.604 795 0.098 188 

5 0.684 176 0.594 84 

28 0.894 475 0.171 803 

29 0.058 066 0.290 384 


30 0.675 949 0.628 377 
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4.5.3 ”Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 两 个 变量 ， 分 别 为 收 
益 率 A 和 收益 率 B。 我 们 把 收益 率 A 变量 设 定 为 retumA， 把 收益 率 B 变量 设 定 为 returnB， 


变量 类 型 及 长 度 采取 系统 默认 方式 , 然后 录入 相关 数据 。 相关 操作 我 们 在 第 1 章 中 已 有 详细 讲 
述 。 录 入 完成 后 数据 如 图 4.14 所 示 。 


图 4.14 案例 4.5 数据 
先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 又 如 下 : 


四 进入 Stata 14.0， 打 开 相 关 数 据 文件 ， 弹 出 主 界面 。 
在 主 界面 的 “Command” 文 本 框 中 输入 命令 : 


sdtest returnA= returnB 


加 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 
4.5.4 结果 分 析 


在 Stata 14.0 主 界面 的 结果 窗口 我 们 可 以 看 到 如 图 4.15 所 示 的 分 析 结 果 。 


Std. Err. Std. Dev. [95* Conf. Interval] 


.4907723 .0522183 .2860114 


.3839739 .5975707 
.4291026 .0526941 .2886173 


.3213311 = .5368741 


.4599374 = .0369953 .2865641 .3859101 .5339648 


ratio = sdlreturnA) / sd(returnB) £= 0.9820 
Ip: ratio = 1 degrees of freedom = 29, 29 


Ha: rario < 1 Ha: ratio = 1 Ha: rario > 1 
PrtP < £) = 0.4807 zzrprlF < £) = 0.9614 PrlF > £) = 0.5193 


图 4.15 分 析 结 果 图 
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通过 观察 分 析 结 果 ， 我 们 可 以 看 出 共有 30 对 有 效 样本 参与 了 假设 检验 ， 自 由 度 为 29， 其 
中 变量 returnA 包括 30 个 样本 , 均值 为 0.4907723, 标准 差 为 0.2860114, 标准 误 为 0.0522183， 
95% 的 置信 区 间 是 [0.3839739,0.5975707]; 变量 returnB 包括 30 个 样本 ,均值 为 0.4291026， 标 
准 差 为 0.2886173， 标 准 误 为 0.0526941，95% 的 置信 区 间 是 [0.3213311,0.5368741]。2*Pr(F<f) = 
0.9614, 远大 于 0.05, 所 以 需要 接受 原 假设 , 也 就 是 说 , 两 只 股票 的 收益 率 波动 情况 显著 相同 。 


4.5.5 ”案例 延伸 


例如 ， 我 们 要 把 显著 性 水 平 调 到 1%， 也 就 是 说 置信 水 平 为 99%， 那 么 操作 命令 可 以 相应 
地 修改 为 : 
sdtest returnA= returnB,1level (99) 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 4.16 所 示 。 


~ sdtest returnA- returnB,level(99) 


Variance ratio test 


Variable obs Mean Std. Err. Std. Dev. [993 Conf. Interval] 


recurnh 30 .4907723 .0522183 .2860114 .3468385 .634706 
FecurnB 30 .4291026 .0526941 .2886173 .2838574 。 .5743478 


combined 60 .4599374 .0369953 .2865641 .361465 .5584099 


racio = sd(returnA) / sd(returnB) f= 0.9820 
Ho: ratio = 1 degrees of freedom= 29, 29 


Ha: racio < 1 Ha: ratio != 1 Ha: racio > 1 
PrlF < £) = 0.4807 2rPr(F < £) = 0.9614 Pr(F > £) = 0.5193 


图 4.16 分 析 结 果 图 


从 上 面 的 分 析 结 果 中 可 以 看 出 与 95% 的 置信 水 平 不 同 的 地 方 在 于 置信 区 间 得 到 了 进一步 
的 放大 ， 这 是 正常 的 结果 ， 因 为 这 是 要 取得 更 高 置信 水 平 所 必须 付出 的 代价 。 


4.6 本章 习题 


(1) 江西 省 某 高 校 3 年 前 对 大 二 学 生体 检 时 ， 发 现 学 生 的 平均 身高 是 175 厘米 。 最 近 又 
抽查 测量 了 该 校 63 名 大 二 学 生 的 身高 , 如 表 4.6 所 示 。 试 用 Stata 14.0 的 单一 样本 T 检验 操作 
命令 判断 该 校 大 二 学 生 的 身高 与 3 年 前 相 比 是 否 有 显著 差异 〈 设 定 显著 性 水 平 为 %) 。 


表 4.6 ”江西 省 某 高 校 63 名 大 二 学 生 的 身高 数据 


编号 身高 (cm) 
001 164.5 
002 162.1 
003 158.8 
004 159.9 
005 162.7 
061 SE.2 
062 163.6 
063 164.5 
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(2) 表 4.7 给 出 了 X、Y 两 所 学 校 各 38 名 初 三 学 生 的 中 考 语 文成 绩 。 试 用 独立 样本 工 检 
验方 法 研究 两 所 学 校 被 调查 的 初 三 学 生 的 中 考 语 文成 绩 之 间 有 无 明显 的 差别 ( 设 定 显著 性 水 平 
为 5%) 


表 4.7 X、Y 两 所 学 校 各 38 名 初 三 学 生 的 中 考 语文 成 绩 


编号 学 校 中 考 语文 成 绩 
001 流 103 
002 这 105 
003 101 
004 芒 98 
Ea 这 
~ 


005 


074 135 


075 v 138 
076 车 144 


(3) 为 了 研究 一 种 杀 虫 剂 的 效果 ， 特 抽取 了 30 平方 米 的 麦田 进行 试验 ， 其 使 用 该 产品 
前 后 的 含 虫 量 如 表 4.8 所 示 。 试 用 配对 样本 T 检验 的 方法 判断 该 杀 虫 剂 是 否 有 效 〈 设 定 显著 性 
水 平 为 5%) 


表 4.8 使 用 杀 虫 剂 前 后 的 含 虫 量 ( 单 位 :个 /平方 米 ) 
编号 使 用 杀 虫 剂 前 使 用 杀 虫 剂 后 
| 


(4) 为 研究 某 基 金 的 收益 率 波动 情况 ， 某 课题 组 对 该 基金 连续 50 天 的 收益 率 情 况 进行 
了 调查 研究 ， 调 查 得 到 的 数据 经 整理 后 如 表 4.9 所 示 。 试 对 该 数据 资料 进行 假设 ,检验 其 方差 
是 否 等 于 1( 设 定 显著 性 水 平 为 5%) 


表 4.9 某 基金 的 收益 率 波动 情况 


编号 收益 率 

1 0.564 409 
2 0.264 802 
0.947 743 
4 0.276 915 
5 0.118016 
48 -0.967 87 
49 0.582 328 
50 0.7953 
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(5) 为 研究 某 两 只 基金 的 收益 率 波 动情 况 是 否 相 同 ， 某 课题 组 对 这 两 只 基金 连续 20 天 
9 收益 率 情况 进行 了 调查 研究 ， 调 查 得 到 的 数据 经 整理 后 如 表 4.10 所 示 。 试 使 用 Stata 14.0 对 
该 数据 资料 进行 假设 ， 检 验 其 方差 是 否 相 同 〈 设 定 显 著 性 水 平 为 5%) 。 


表 4.10 某 两 只 基金 的 收益 率 波动 情况 


编号 收益 率 A 收益 率 B 
1 0.424 156 0.261 075 
0.898 346 0.165 021 
3 0.521 925 | 0.760 604 
4 0.841 409 0.371 381 
5 0.211 008 0.379 541 
18 0.564 409 | 0.967 874 
19 0.264 802 | 0.582 328 


20 0.947 743 
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- 般 情 况 下， 参数 检验 方法 假设 统计 总 体 的 具体 分 布 为 已 知 ， 但 是 我 们 往往 会 遇 到 一 些 
总 体 分 布 不 能 用 有 限 个 实 参数 来 描述 或 者 不 考虑 被 研究 的 对 象 为 何 种 分 布 , 以 及 无 法 合理 假设 
总 体 分 布 形式 的 情形 , 这 时 我 们 就 需要 放弃 对 总 体 分 布 参数 的 依赖 ,从 而 去 寻求 更 多 来 自 样本 
的 信息 ,基于 这 种 思路 的 统计 检验 方法 被 称 为 非 参 数 检 验 。 常 用 的 非 参数 检验 (Nonparametric 
Tests) 包括 单 样本 正 态 分 布 检验 、 两 独立 样本 检验 、 两 相关 样本 检验 、 多 独立 样本 检验 、 游 
程 检验 等 。 下 面 我 们 将 一 一 介绍 这 些 方法 在 实例 中 的 应 用 。 


5.1 实例 单 样本 正 态 分 布 检验 


5.1.1 单 样本 正 态 分 布 检验 的 功能 与 意义 


单 样本 正 态 分 布 检验 本 质 上 属于 一 种 拟 合 优 度 检验 ， 基 本 功能 是 通过 检验 样本 特征 来 探 
索 总 体 是 否 服从 正 态 分 布 。Stata 的 单 样本 正 态 分 布 检验 有 很 多 种 , 常用 的 包括 偏 度 - 峰 度 检 验 、 
Wilks-Shapiro 两 种 。 


5.1.2 ”相关 数据 来 源 


下 下 载 资源 :\ideo\chap05\… 


醒 下 载 资源 :\sample\chap05\ 正 文案 例 5.1.dta 


【 例 5.1】 表 5.1 给 出 了 山东 财经 大 学 某 专业 60 名 男生 的 百 米 速度 。 试用 单 样本 正 态 分 布 
检验 方法 研究 其 是 否 服从 正 态 分 布 。 
表 5.1 百 米 速度 


15.2 
12.4 
12.4 


12.6 
12.6 
060 13.7 


和 
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5.1.3 Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 一 个 变量 ， 即 速度 。 
我 们 把 速度 变量 设 定 为 speed， 变 量 类 型 及 长 度 采取 系统 默认 方式 ， 然 后 录入 相关 数据 。 相 关 
操作 我 们 在 第 1 章 中 已 有 详细 讲述 。 录 入 完成 后 数据 如 图 5.1 所 示 。 


口 Data Editor (EV - [FW5 1dta] 


ee “ 隔 击 二 本 
[ES A Fiter variables here 
A Name Label 
mspeed 


Notes 


Ready Vars: 1 Order Dataset Obs:60 Filter Of Mode:Edit A> NUM 3 
图 5.1 案例 5.1 数据 
先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 骤 如 下 : 


加 进入 Stata 14.0， 打 开 相 关 数 据 文 件 ， 弹 出 主 界面 。 
贺 wilks-Shapiro 、 偏 度 - 峰 度 检验 两 种 检验 方式 在 主 界面 的 “Command” 文 本 框 中 输入 


的 命令 格式 分 别 如 下 。 
。 ”swilk speed: 本 命令 的 含义 是 对 speed 变量 使 用 Wilks-Shapiro 检验 方式 进行 单 样 本 正 
态 分 布 检验 。 
。 ”sktest speed: 本 命令 的 含义 是 对 speed 变量 使 用 偏 度 - 峰 度 检验 方式 进行 单 样本 正 态 分 
布 检验 。 


设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


5.1.4 结果 分 析 


在 Stata 14.0 主 界面 的 结果 窗口 我 们 可 以 看 到 如 图 5.2 和 图 5.3 所 示 的 分 析 结 果 。 


.swilk speed 


Shapiro-Wilk W test for normal data 


Variable | cbs 下 v = Prob>z 


5.2 分 析 结 果 图 
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Skewness/Kurtosis tests for Normality 


joint 
yorisbls | Obs Prilskewness) Pr(Kurtosis) adj chi2(2) Prob>chi2 


图 5.3 分 析 结 果 图 
通过 观察 分 析 结 果 ， 我 们 可 以 看 出 两 种 检验 方法 的 检验 结果 是 一 致 的 ， 共 有 60 个 有 效 样 
本 参与 了 假设 检验 , P 值 均 远 小 于 0.05， 所 以 需要 拒绝 原 假设 ， 也 就 是 说 ， 百 米 速 度数 据 不 服 
从 正 态 分 布 。 


5.1.5 “案例 延伸 


上 述 的 Stata 命令 比较 简洁 ， 分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 

例如 ， 我 们 只 针对 speed 变量 大 于 12.5 的 观测 样本 进行 单 样本 正 态 分 布 检验 ， 那 么 操作 
命令 即 为 : 


Swilk speed if speed>12.5 
在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 5.4 所 示 。 


.swilk speed if speed>12.5 


Shapiro-Vilk 日 rest for normal data 


Variable | obs vy MA 了 rob>z 


speed | 23 0.64305 9.337 4.543 0.00000 


5.4 分析 结果 图 


通过 观察 分 析 结 果 , 我们 可 以 看 出 共有 23 个 有 效 样本 参与 了 假设 检验 ,P 值 均 远 小 于 0.05， 
所 以 需要 拒绝 原 假设 ， 也 就 是 说 ， 百 米 速度 数据 不 服从 正 态 分 布 。 


5.2 ”实例 二 一 一 两 独立 样本 检验 


5.2.1 ”两 独立 样本 检验 的 功能 与 意义 


跟前 面 的 检验 方法 一 样 ，Stata 的 两 独立 样本 检验 (Two-Independent samples Test) 也 是 非 
参数 检验 方法 的 一 种 , 其 基本 功能 是 可 以 判断 两 个 独立 样本 是 否 来 自 相同 分 布 的 总 体 。 这 种 检 
验 过 程 是 通过 分 析 两 个 独立 样本 的 均 数 、 中 位 数 、 离 散 趋势 、 偏 度 等 描述 性 统计 量 之 间 的 差异 
来 实现 的 。 
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Be 下 载 资源 :Wideo\chap05\… 
画 下 载 资源 :\sample\chap05\ 正 文 \ 案 例 5.2.dta 


【 例 5.2】 表 5.2 给 出 了 广东 省 东北 部 和 西北 部 主要 年 份 的 年 降雨 量 。 试 用 两 独立 样本 检 
验方 法 判断 两 个 地 区 的 年 降雨 量 是 否 存 在 显著 差异 。 


年 份 


1980 
1985 
1990 
1995 
1996 
1997 
1998 
1999 
2000 
2001 
2002 
2003 


表 5.2 广东 省 东北 部 和 西北 部 主要 年 份 年 降雨 量 〈( 单 位: mm) 


降雨 量 
粤 东 北 粤 西 北 
1461.7 1586.1 
1607.8 1726.9 
1709.0 1284.8 
1171.0 1766.4 
1361.5 1693.1 
1847.5 1815.3 
1458.2 1737.5 
1033.8 1318.7 
1850.9 1318.2 
1560.3 1889.2 
1110.3 1480.9 
1415.2 1251.8 


5.2.3 ”Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 3 个 变量 ， 分 别 是 年 
份 、 地 区 和 降雨 量 。 我 们 把 年 份 变量 设 定 为 year， 把 地 区 变量 设 定 为 group 并 且 把 粤 东 北 定义 
为 1， 把 粤 西 北 定义 为 2， 变 量 类 型 及 长 度 采 取 系统 默认 方式 ， 然 后 录入 相关 数据 。 相 关 操 作 
我 们 在 第 1 章 中 已 有 详细 讲述 。 录 入 完成 后 数据 如 图 5.5 所 示 。 
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图 5.5 案例 5.2 数据 
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先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 骤 如 下 : 

进入 Stata 14.0， 打 开 相关 数据 文件 ， 弹 出 主 界面 。 

本 在 主 界面 的 “Command” 文 本 框 中 输入 如 下 命令 ( 旨 在 用 两 独立 样本 检验 方法 判断 
两 个 地 区 的 年 降雨 量 是 否 存在 显著 差异 ): 

Franksum sum,by( group) 


加 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


5.2.4 结果 分 析 


在 Stata 14.0 主 界面 的 结果 窗口 我 们 可 以 看 到 如 图 5.6 所 示 的 分 析 结果 。 
通过 观察 分 析 结 果 ， 我 们 可 以 看 出 共有 24 个 有 效 样本 参与 了 假设 检验 ，Prob > |z| = 
0.3556， 远 大 于 0.05， 所 以 需要 接受 原 假设 ， 也 就 是 说 ， 两 个 地 区 的 年 降雨 量 存在 显著 差异 。 


5.2.5 “案例 延伸 


上 述 的 Stata 命令 比较 简洁 ， 分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 

例如 ， 我 们 只 针对 year 变量 大 于 1990 的 观测 样本 进行 两 独立 样本 检验 ， 那 么 操作 命令 即 
为 : 


ranksum sum if Year>1990,by( group) 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 5.7 所 示 。 


|- ranksum sum if year>1990,by( group) 


anksum sum by( group) 


| ple Vilcoxon rank-sum (Nann-Vhitney) test wo-sample Wilcoxon rank-sum (Nann-Whitney) teat 

Group | ops rank sw expected opa rank sum 。 expected 

1 12 134 150 9 4 85.5 

2 12 166 150 9 97 85.5 

caminea | 24 300 300 18 71 171 
| aaacea variance 300.00 128.25 
pdjustment for cies 0.00 ot 
djusted variance 300.00 128.25 


Fo: sum(group==1) = sum(group==2) me A (re mp 


ro > Isl > 0.3336 ren > el -0.3099 
图 5.6 分 析 结 果 图 图 5.7 分 析 结 果 图 


通过 观察 分 析 结 果 ， 我 们 可 以 看 出 共有 18 个 有 效 样本 参与 了 假设 检验 ，Prob > 四 = 
0.3099， 远 大 于 0.05， 所 以 需要 接受 原 假设 ， 也 就 是 说 ， 两 个 地 区 的 年 降雨 量 存 在 显著 差异 。 
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5.3 “实例 三 一 一 两 相关 样本 检验 


5.3.1 ”两 相关 样本 检验 的 功能 与 意义 


两 相关 样本 检验 (2-Related samples Test) 的 基本 功能 是 可 以 判断 两 个 相关 的 样本 是 否 来 
自 相同 分 布 的 总 体 。 


5.3.2 ”相关 数据 来 源 


全 下 载 资源 :Wideo\chap05\… 
下 载 资源 :\sample\chap05\ 正 文 \ 案 例 5.3.dta 


【 例 5.3】 为 分 析 一 种 新 药 的 效果 , 特 选取 了 52 名 病人 进行 试验 , 表 5.3 给 出 了 试验 者 服 
药 前 后 的 血红 蛋白 数量 试用 两 相关 样本 检验 方法 判断 该 药 能 否 引 起 患者 体内 血红 和 蛋白 数量 的 
显著 变化 。 


表 5.3 患者 服药 前 后 血红 蛋白 的 数量 变化 


052 [09 | 


5.3.3 ”Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 两 个 变量 ， 分 别 是 服 
药 前 血红 蛋白 数量 和 服药 后 血红 和 蛋白 数量 。 我 们 把 服药 前 血红 蛋白 数量 这 一 变量 设 定 为 qian， 
把 服药 后 血红 蛋白 数量 这 一 变量 设 定 为 hou， 变 量 类 型 及 长 度 采 取 系 统 默认 方式 ， 然 后 录入 相 
关 数 据 。 相 关 操作 我 们 在 第 1 章 中 已 有 详细 讲述 。 录 入 完成 后 数据 如 图 5.8 所 示 。 
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图 5.8 案例 5.3 数据 


先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 骤 如 下 : 


加 进入 Stata 14.0， 打 开 相关 数据 文件 ， 弹 出 主 界面 。 
加 在 主 界面 的 “Command” 文 本 框 中 输入 如 下 命令 ( 旨 在 使 用 两 相关 样本 检验 方法 判 


断 患者 体内 血红 蛋白 数量 是 否 发 生 显著 变化 ): 


signtest qian=hou 
[加 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


在 Stata 14.0 主 界面 的 结果 窗口 我 们 可 以 看 到 如 图 5.9 所 示 的 分 析 结 果 。 


stgmtest qian-hou 


[sign 
ign | observed ~ expected 

positive 38 26 
egat ive 14 26 
zero o o 

all 52 52 


one-sided tests: 

Ho: median of qian - hou 

Ha: median of qian - hou > 0 
Pr (fpositive >= 38| 


3 
Binomial(n = 52, x >= 38, p = 0.5) = 0.0006 


2， 
Ho: median of qian - hou = 0 vs. 
Ha: median of qian - hou < 
Pr (fnegative >= 14) = 
Binomial(n = 52, x >= 14, p = 0.5) = 0.9998 
Two-sided test: 
Ho: median of qian - hou = 0 ve. 


gacive >= 38) = 
= 52, x >= 38, p = 0.5)) = 0.0012 


5.9 分 析 结 果 图 
可 以 看 出 本 结论 与 通过 检验 均值 得 出 的 结论 是 一 致 的 。 本 检验 结果 包括 符号 检验 、 单 侧 
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检验 和 双 侧 检验 3 部 分 。 符 号 检验 (Sign test) 的 原理 是 通过 用 配对 的 两 组 数据 做 差 ， 原 假设 
是 两 组 数据 不 存在 显著 差别 , 所 以 两 组 数据 做 差 的 结果 应 该 是 正 数 、 负 数 大 体 相当 。 在 本 例 中 ， 
期 望 值 是 有 26 个 正 数 ，26 个 负数 ， 然 而 实际 的 观察 值 却 是 38 个 正 数 ， 所 以 两 组 数据 存在 显 
著 差 异 。 也 就 是 说 该 药 引 起 了 患者 体内 血红 蛋白 数量 的 显著 变化 。 单 侧 检验 和 双 侧 检验 的 结果 
解读 在 前 面 章 节 多 有 涉及 ， 这 里 不 再 著述 。 


5.3.5 “案例 延伸 


上 述 的 Stata 命令 比较 简洁 ， 分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 
例如 , 我 们 只 针对 qian 变量 大 于 12 的 观测 样本 进行 两 相关 样本 检验 , 那么 操作 命令 即 为 : 


signtest qian=hou if qian>12 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 5.10 所 示 。 


signtest qian-hou if gian>12 


x >= 30, p= 0.5) = 0.0040 


通过 观察 分 析 结 果 ， 我 们 可 以 看 出 期 望 值 是 有 21 个 正 数 、21 个 负数 ， 然 而 实际 的 观察 值 
却 是 30 个 正 数 ， 所 以 两 组 数据 存在 显著 差异 ， 也 就 是 说 该 药 引起 了 患者 体内 血红 蛋白 数量 的 
显著 变化 。 


5.4 ”实例 四 一 一 多 独立 样本 检验 


5.4.1 多 独立 样本 检验 的 功能 与 意义 


顾名思义 ， 多 独立 样本 检验 (K-Independent samples Test) 用 于 判断 多 个 独立 的 样本 是 否 
来 自 相 同 分 布 的 总 体 。 
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5.4.2 ”相关 数据 来 源 


【 例 5.4】 某 公司 新 招聘 的 一 批 员 工 毕业 于 4 所 不 同 的 高 校 ， 并 且 来 源 于 4 所 不 同 高 校 的 
员工 构成 了 4 个 独立 的 样本 。 待 到 实习 期 结束 后 ,高 管 对 这 些 新 员工 进行 考察 打分 ,结果 如 表 
5.4 所 示 。 试 用 多 独立 样本 检验 方法 分 析 毕 业 于 不 同 高 校 的 员工 在 工作 上 的 表现 是 否 有 显著 的 
差异 。 


表 5.4 员工 考核 成 绩 


5.4.3 Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 两 个 变量 ， 分 别 为 高 
校 和 分 数 。 我 们 把 分 数 变量 设 定 为 goal， 把 高 校 变量 设 定 为 school， 并 且 把 A、B、C、D 共 4 
所 高 校 分 别 定义 为 1、2、3、4， 变 量 类 型 及 长 度 采取 系统 默认 方式 ， 然 后 录入 相关 数据 。 相 
关 操 作 我 们 在 第 1 章 中 已 有 详细 讲述 。 录 入 完成 后 数据 如 图 5.11 所 示 。 


rE 


| | 
Naeady Vars2 Order Dataset Obs: 60_ Filter Off Mode; Edit CAP NUM -| 


图 5.11 案例 5.4 数 据 
先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 又 如 下 : 
四 进入 Stata 14.0， 打 开 相 关 数据 文件 ， 弹 出 主 界面 。 
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加 在 主 界面 的 “Command” 文 本 框 中 输入 如 下 命令 ( 间 在 用 多 独立 样本 检验 方法 分 析 
毕业 于 不 同 高 校 的 员工 在 工作 上 的 表现 是 否 有 显著 的 差异 ): 


kwallis goal,by( school) 


加 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


5.4.4 结果 分 析 


在 Stata 14.0 主 界面 的 结果 窗口 我 们 可 以 看 到 如 图 5.12 所 示 的 分 析 结 果 。 

通过 观察 分 析 结 果 ， 我 们 可 以 看 出 有 4 组 ， 每 组 有 15 个 ， 共 有 60 个 有 效 样 本 参与 了 假 
设 检验 ，p 值 远 小 于 0.05， 所 以 需要 拒绝 原 假设 ， 也 就 是 说 ， 毕 业 于 不 同 高 校 的 员工 在 工作 上 
的 表现 有 显著 的 差异 。 


5.4.5 ”案例 延伸 


上 述 的 Stata 命令 比较 简洁 ， 分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 

例如 , 我 们 只 针对 goal 变量 大 于 75 的 观测 样本 进行 多 独立 样本 检验 , 那么 操作 命令 即 为 : 

kwallis goal if goal>75,by( school) 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 5.13 所 示 。 


IEruskal-iallis equality-of-populations rank test = Mlle gal 起 geal2797 bt SONS 


Eruskal-Wallis equality-of-pcpulations rank test 


Rank Sum 


799.00 
570.00 
345.00 
120.00 


school | ohs | Rank sum 


150.00 
| 3.00 


[chi-squared = 5.000 with 1 dt. 
|probabilisy = 0.0253 


squared = 55.328 with 3 df. 
9.0001 


iared with ties = 


te: 55.442 with 3 df 
9.0001 


[chi-squared vich ties = 5.025 with 1 dc 
[probapility = _ 0.0250 


图 5.12 分 析 结 果 图 图 5.13 分 析 结 果 图 


通过 观察 分 析 结 果 ， 我 们 可 以 看 出 参与 分 析 的 样本 由 4 组 变 为 2 组 ， 共 有 17 个 有 效 样本 
参与 了 假设 检验 ，p 值 远 小 于 0.05， 所 以 需要 拒绝 原 假设 。 


5.5 ”实例 五 


游程 检验 


5.5.1 ”游程 检验 的 功能 与 意义 


Stata 的 游程 检验 Runs Test) 也 是 非 参数 检验 方法 的 一 种 ， 其 基本 功能 是 : 可 以 判断 样 
本 序列 是 否 为 随机 序列 。 这 种 检验 过 程 是 通过 分 析 游 程 的 总 个 数 来 实现 的 。 
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相关 数据 来 源 


Be 下 载 资源 :Wideo\chap05\… 


国 下 载 资源 :\sample\chap05\ 正 文案 例 5.5.dta 


全 


【 例 5.5】 表 5.5 给 出 了 某 纺织 厂 连续 15 天 通过 试验 得 出 的 28 号 梳 棉 棉 条 的 棉 结 杂 质粒 
数 的 数据 。 试 用 游程 检验 方法 研究 该 纺织 厂 的 生产 情况 是 否 正常 。 


表 5.5 棉 结 杂质 粒 数 表 


天 数 编号 棉 结 杂质 粒 数 / 粒 /g 
001 52 
002 89 
003 45 
004 25 
005 62 
006 64 
007 64 
008 62 
009 65 
010 65 
011 64 
012 38 
013 51 
014 46 
015 78 


5.5.3 ”Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 只 有 一 个 变量 ， 即 棉 结 杂 质 
粒 数 。 我 们 把 棉 结 杂 质粒 数 变量 设 定 为 number， 变 量 类 型 及 长 度 采 取 系统 默认 方式 ， 然 后 录入 相 
关 数 据 。 相 关 操作 我 们 在 第 1 章 中 已 有 详细 讲述 。 录 入 完成 后 数据 如 图 5.14 所 示 。 

人 petde tin E95 cal TI 
外 me Ene View Data Toos 


EL LE TE Es 
| umbeDl 2 


一 - 司 
2 二 加 Name Label 
[一 一 


Ready Varsl order Dataset Obs:15 Fiter Off ModeEdt 27 NUM 2 


图 5.14 案例 5.5 数据 
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先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 又 如 下 


进入 Stata 14.0， 打 开 相关 数据 文件 ， 弹 出 主 界面 。 
因 在 主 界面 的 “Command” 文 本 框 中 输入 如 下 命令 ( 本 命令 的 含义 是 判断 number 变量 
是 否 为 随机 ): 


runtest number 


加 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


在 Stata 14.0 主 界面 的 结果 窗口 我 们 可 以 看 到 如 图 5.15 所 示 的 分 析 结 果 。 


人 
Prob>lzl = . 


5.15 ”分析 结果 图 


通过 观察 分 析 结 果 ， 我 们 可 以 看 出 Prob>|z| = 0.84， 远 大 于 0.05， 所 以 需要 接受 原 假设 ， 
也 就 是 说 ， 数 据 的 产生 是 随机 的 ， 不 存在 自 相关 现象 ， 该 纺织 厂 的 生产 情况 正常 。 


5.5.5 ”案例 延伸 


上 述 的 Stata 命令 比较 简洁 ， 分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 
Stata 14.0 默认 采用 中 位 数 作为 参考 值 ， 如 果 设 定 均值 作为 参考 值 ， 那 么 操作 命令 即 为 : 


runtest number,mean 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 5.16 所 示 。 


. runtest number,mean 

N number <= 61.33333333333334) = 5 

Ninumber > 61.33333333333334) = 10 
obs = 15 


Niruns) = 6 
z = -1.01 
Prob>1zl = .31 


5.16 ”分析 结果 图 


通过 观察 分 析 结 果 ， 我 们 可 以 看 出 Prob>|lz| = 0.31， 远 大 于 0.05， 所 以 需要 接受 原 假设 ， 
也 就 是 说 ， 数 据 的 产生 是 随机 的 ， 不 存在 自 相关 现象 。 


第 5 章 ”Stata 非 参数 检验 


5.6 本章 习题 


(1) 表 5.6 给 出 了 某 实验 中 学 60 名 毕业 生 的 高 考 数学 成 绩 。 试用 单 样本 正 态 分 布 检验 方 
法 研究 其 是 否 服从 正 态 分 布 。 


表 5.6 某 实验 中 学 60 名 毕业 生 的 高 考 数学 成 绩 


编号 高 考 数 学 成 绩 
001 144 
002 142 
003 141 
004 138 
005 129 
058 126 
059 128 
060 134 


(2) 表 5.7 给 出 了 A、B 两 家 公司 近 些 年 的 净利 润 情况 。 试 用 两 独立 样本 检验 方法 判断 
两 家 公司 近 些 年 的 净利 润 是 否 存 在 显著 差异 。 

(3) 为 了 研究 一 种 智力 开发 课程 的 效果 ， 特 抽取 了 30 名 学 生 进行 试验 ， 其 使 用 该 产品 
前 后 的 智商 如 表 5.8 所 示 。 试 用 配对 样本 T 检 验 的 方法 判断 该 开发 课程 是 否 有 效 。 


表 5.7 A、B 两 家 公司 近 些 年 的 净利 润 (单位 : 万 元 ) 


表 5.8 使 用 智力 开发 课程 前 后 的 智商 水 平 


编号 使 用 智力 开发 课程 前 使 用 智力 开发 课程 后 
001 121 123 
002 | 86 | sg 
003 | 97 | 909 
004 | 10> | 103 
005 104 105 
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( 续 表 ) 


编号 使 用 智力 开发 课程 前 使 用 智力 开发 课程 后 


(4) 参加 某 足 球 俱乐部 试 训 的 一 批 球员 来 自 4 个 不 同 的 国家 ， 从 而 来 源 于 4 个 不 同 国家 
的 球员 构成 了 4 个 独立 的 样本 。 试 训 期 结束 后 ， 教 练 员 对 这 些 球员 进行 考察 打分 ， 结 果 如 表 
5.9 所 示 。 试 用 多 独立 样本 检验 方法 分 析 来 自 于 不 同 国家 的 球员 表现 是 否 有 显著 的 差异 。 


表 5.9 球员 考核 成 绩 


(5) 表 5.10 给 出 了 某 汽车 连续 15 天 每 加 仑 汽油 行驶 的 英里 数 。 试 用 游程 检验 方法 研究 
该 汽车 每 加 仑 汽油 行驶 英里 数 是 否 为 随机 。 
表 5.10 每 加 仑 汽油 行驶 英里 数 


天 数 编号 每 加 仓 汽油 行驶 英里 数 
001 18.4 
002 175 
003 16.0 
004 16.9 
005 20.5 
006 22.4 
007 21.4 
008 20.6 
009 19.5 
010 23.1 
011 21.3 
012 22.9 
013 22.5 
014 20.1 
015 19.1 
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第 6 章 Stata 方差 分析 


当 遇 到 多 个 平均 数 间 的 差异 显著 性 检验 时 ， 我 们 可 以 采用 方差 分 析 法 。 方 差分 析 法 就 是 
将 所 要 处 理 的 观测 值 作为 一 个 整体 , 按照 变异 的 不 同 来 源 把 观测 值 总 变异 的 平方 和 以 及 自由 度 
分 解 为 两 个 或 多 个 部 分 从 而 获得 不 同 变异 来 源 的 均 方 与 误差 均 方 ; 通过 比较 不 同 变异 来 源 的 
均 方 与 误差 均 方 , 判断 各 样本 所 属 总 体 方差 是 否 相等 。 方 差分 析 主 要 包括 单 因素 方差 分 析 、 多 
因素 方差 分 析 、 协 方差 分 析 、 重 复 测 量 方差 分 析 等 。 下 面 我 们 将 分 别 介绍 这 些 方法 在 实例 中 的 
应 用 。 


6.1 实例 一 一 一 单 因素 方差 分 析 


6.1.1 单 因素 方差 分 析 的 功能 与 意义 
单 因素 方差 分 析 是 方差 分 析 (Analysis of Variance) 类 型 中 最 基本 的 一 种 ， 研 究 的 是 一 个 
因素 对 于 试验 结果 的 影响 和 作用 , 这 一 因素 可 以 有 不 同 的 取 值 或 者 是 分 组 。 单 因素 方差 分 析 所 
要 检验 的 问题 就 是 当 因素 选择 不 同 的 取 值 或 者 分 组 时 对 结果 有 无 显著 的 影响 。 


6.1.2 ”相关 数据 来 源 


| Tvideoenanoe'- 


一 下 载 资源 :\sample\chap06\ 正 文案 例 6.1.dta 


【 例 6.1】 表 6.1 给 出 了 4 种 新 型 药物 对 白鼠 胰岛 素 分 泌 水 平 的 影响 测量 结果 ， 数 据 为 上 
鼠 的 胰岛 质量 。 试 用 单 因素 方差 分 析 检 验 4 种 药物 对 胰岛 素 水 平 的 影响 是 否 相 同 。 


表 6.1 4 种 药物 刺激 下 的 白鼠 胰岛 质量 


国 国 四国 四 国 巴 
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6.1.3 ”Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 两 个 变量 ， 分 别 为 胰 
岛 质 量 和 药物 组 。 我 们 把 胰岛 质量 变量 设 定 为 weight， 把 药物 组 变量 设 定 为 group， 变 量 类 型 


及 长 度 采取 系统 默认 方式 , 然后 录入 相关 数据 。 相 关 操 作 我 们 在 第 1 章 中 已 有 详细 讲述 。 录 入 
完成 后 数据 如 图 6.1 所 示 。 


group 


Variobles 


图 6.1 案例 6.1 数据 
先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 骤 如 下 : 
进入 Stata 14.0， 打 开 相 关 数 据 文件 ， 弹 出 主 界面 。 


加 在 主 界面 的 “Command” 文 本 框 中 输入 如 下 命令 ( 旨 在 用 单 因素 方差 分 析 检 验 4 种 
药物 对 胰岛 素 水 平 的 影响 是 否 相同 ): 


oneway weight group, tabulate 


园 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 
6.1.4 结果 分 析 


在 Stata 14.0 主 界面 的 结果 窗口 我 们 可 以 看 到 如 图 6.2 所 示 的 分 析 结果 。 
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+ oneway weight group,tabulate 


Summary of veight 
Nean Std. Dev. Freq. 


82.869998 。 6.0378526 
91.58 。 3.4701259 
73.42 1.5389754 

85.830001 ”1.7550251 


83.425 7.5319406 


Analysis of Variance 
ss a E33 prop > 了 


1726.96106 3 575.653686 0.0000 
485.513964 36 。 13.486499 


2212.47502 39 56.7301288 


从 上 述 分 析 结果 中 可 以 得 到 很 多 信息 。 分 析 结 果 图 的 上 半 部 分 是 胰岛 质量 变量 的 概要 统 
计 ， 其 中 共有 4 个 组 别 ， 第 1 组 的 均值 是 82.869998， 标 准 差 是 6.0378526， 频 数 是 10; 第 2 
组 的 均值 是 91.58, 标准 差 是 3.4701259, 频数 是 10; 第 3 组 的 均值 是 73.42, 标准 差 是 1.5389754， 
频数 是 10; 第 4 组 的 均值 是 85.830001， 标 准 差 是 1.7550251， 频 数 是 10。 样 本 总 数 是 40 个 ， 
均值 是 83.425, 标准 差 是 7.5319406。 下 半 部 分 是 方差 分 析 的 结果 , chi2(3) = 20.0858, Prob>chi2 
= 0.000， 说 明 要 拒绝 等 方差 假设 ， 也 就 是 说 本 例 的 结论 是 4 种 药物 对 胰岛 素 水 平 的 影响 显著 
不 相同 。 


6.1.5 ”案例 延伸 


上 述 的 Stata 命令 比较 简洁 ， 分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 

例如 ,我 们 只 针对 weight 变量 大 于 72 的 观测 样本 进行 单 因 素 方差 分 析 ， 那 么 操作 命令 即 
为 : 


oneway weight group if weight>72, tabulate 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 6.3 所 示 。 


~ onevay weight group if weight>72, tabulate 


Summary of veight 
group Nean Std. Dev. Freq- 
1 84.133331 4.8018229 9 
A 91.58 3.4701259 10 
3 73.862499 1.3752285 8 
4 85.830001 = 1.7550251 10 
Tocal 84.383783 6.9894969 37 
analysis of Variance 
Source ES ar Prob > 了 
secween groups 1424.91462 3 474.971541 46.96 0.0000 
Vithin groups 333.795779 33 10.1150236 
Tocal 1758.7104 36 48.8530667 
lBartlett's test for equal variances: chi2{3) = 13.5840 Prob>chiz = 0.004 


图 6.3 分 析 结 果 图 
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对 该 结果 的 详细 说 明 在 前 面 已 有 提 及 ， 此 处 限于 篇 幅 不 再 次 述 。chi2(3) = 13.5840， 
Prob>chi2 = 0.004， 说 明 要 拒绝 等 方差 假设 。 


6.2 ”实例 二 一 一 多 因素 方差 分 析 


6.2.1 多 因素 方差 分 析 的 功能 与 意义 


多 因素 方差 分 析 的 基本 思想 基本 等 同 于 单 因素 方差 分 析 ， 不 同 之 处 在 于 其 研究 的 是 两 个 
或 者 两 个 以 上 因素 对 于 试验 结果 的 作用 和 影响 , 以 及 这 些 因素 共同 作用 的 影响 。 多 因素 方差 分 
析 所 要 研究 的 是 多 个 因素 的 变化 是 否 会 导致 试验 结果 的 变化 ,由 于 三 因素 以 及 三 因素 以 上 方差 
分 析 较 少 用 到 ， 因 此 下 面 我 们 以 双 因 素 方 差分 析 为 例 进行 介绍 。 


6.2.2 ”相关 数据 来 源 


Ss 
下 载 资源 :\sample\chap06\ 正 文 \ 案 例 6.2.dta 


【 例 6.2) 将 40 只 大 鼠 随 机 等 分 为 4 组 ， 每 组 10 只 ， 进 行 肌肉 损伤 后 的 缝合 试验 。 处 理 
方式 由 两 个 因素 组 合 而 成 ，A 因素 为 缝合 方法 ， 分 别 为 外 膜 终 合 和 内 膜 颖 合 ， 记 作 al、a2; B 
因素 为 缝合 后 的 时 间 ， 分 别 为 缝合 后 1 月 和 2 月 ， 记 作 bl1、b2。 试 验 结果 为 大 鼠 肌 肉 缝合 后 
肌肉 力度 的 恢复 度 (%) ， 如 表 6.2 所 示 ， 从 而 考察 缝合 方法 和 缝合 后 时 间 对 肌肉 力度 的 恢复 
度 是 否 有 显著 影响 。 


表 6.2 大 鼠 肌 肉 缝合 后 肌肉 力度 的 恢复 度 测量 数据 


测量 编号 肌肉 力度 的 恢复 度 /% 
1 10.5 

E 10.6 

3 11.5 

4 13 

5 11 

6 114 

38 28.3 

39 28.1 

40 28.3 


6.2.3 ”Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 3 个 变量 ， 分 别 是 肌 
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肉 力度 的 恢复 度 、 缝 合 方法 和 缝合 后 时 间 。 我 们 把 肌肉 力度 的 恢复 度 变量 设 定 为 renew， 把 缝 
合 方法 变量 设 定 为 method， 并 且 其 中 的 缝合 方法 al 设 定 为 1、 缝合 方法 a2 设 定 为 2， 把 缝合 
后 时 间 变量 设 定 为 time， 并 且 其 中 的 缝合 方法 bl 设 定 为 1、 缝合 方法 b2 设 定 为 2， 变量 类 型 
及 长 度 采取 系统 默认 方式 , 然后 录入 相关 数据 。 相 关 操 作 我 们 在 第 1 章 中 已 有 详细 讲述 。 录 入 
完成 后 数据 如 图 6.4 所 示 。 


DD paw Eapor td- J 

ie Ei View Dota toot 

EL EE 
renewll] 105 


ene 
Label | 
让 三 
Format %9.0g 
Value label 
Em™ m - 
ay Vers3 Order Dataset ob Fen Of Moder Eo CE NUM | 
图 6.4 案例 6.2 数据 


先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 骤 如 下 : 


四 进入 Stata 14.0， 打 开 相 关 数据 文件 ， 弹 出 主 界面 。 
在 主 界面 的 “Command” 文 本 框 中 输入 如 下 命令 ( 旨 在 考察 颖 合 方法 和 缝合 后 时 间 
对 肌肉 力度 的 恢复 度 是 否 有 显著 影响 ): 


anova renew method time method# time 


设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


6.2.4 结果 分 析 


在 Stata 14.0 主 界面 的 结果 窗口 我 们 可 以 看 到 如 图 6.5 所 示 的 分 析 结 果 。 


anova renew method time method# time 


Number of obs = 0 R-squared = 0.9941 

Root NSE = .516774 Adij R-squared = 0.9936 
ee ee 
Nodel 1617.92495 3 539.308318 2019.46 0.0000 
method#t ime .575999588 1 .575999588 2.16 0.1506 


6.5 分 析 结 果 图 
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通过 观察 分 析 结 果 ， 我 们 可 以 看 出 共有 40 个 有 效 样本 参与 了 方差 分 析 。 


。 可 决 系数 (R-squared ) 以 及 修正 的 可 决 系数 (Adj R-squared ) 都 非常 接近 于 1， 这 说 
明 模 型 的 拟 合 程度 很 高 ， 也 就 是 说 模型 的 解释 能 力 很 强 。 

。 ”Prob > F Model-0.0000， 说 明 模型 的 整体 是 很 显著 的 。 

。 Prob > F method =0.0000， 说 明 变 量 method 的 主 效应 是 非常 显著 的 。 

。 Prob> Ftime=0.0000， 说 明 变 量 time 的 主 效应 也 是 非常 显著 的 。 

. 


Prob > F method#time = 0.1506, 说 明 变 量 method 与 变量 time 的 交互 效应 是 不 显著 的 。 
这 一 点 也 可 以 从 下 面 的 命令 中 得 到 验证 。 


在 主 界面 的 “Command” 文 本 框 中 分 别 输入 下 列 命令 并 按键 盘 上 的 回 车 键 : 


test method 
test time 
test method#time 


可 以 得 到 如 图 6.6 所 示 的 结果 。 


在 上 面 的 例子 中 ， 因 为 变量 method 与 变量 time 的 交互 效应 是 不 显著 的 ， 所 以 我 们 可 以 构 
建 更 加 简单 的 不 包含 两 者 交互 效应 的 方差 分 析 模 型 。 在 主 界面 的 “Command” 文 本 框 中 输入 


下 列 命 令 并 按键 盘 上 的 回 车 键 : 


anova renew method time 


可 以 得 到 如 图 6.7 所 示 的 结果 。 


图 6.6 分 析 结 果 图 


test method 
Source | Partial 55 df ns 了 Prob > 了 
method | 1322.49997 1 1322.49997 。 4952.15 0.0000 
Residual | 9.61400039 36 .267055566 
test time 
Source | Partial ss df ns 下 Prop > 了 
time | 294.848987 1 294.848987 1104.07 0.0000 
Residual | 9.61400039 36 .267055566 
test methodl time 
Source | Partial ss df ns 下 Prop > 了 
methodft-me | .575999588 1 .575999588 2.16 -0.1506 
Residual | 9.61400039 36 .267055566 


.anova renew method time 


Number of obs = 到 Rsquared = 0.9937 

Root HSE = .524791 aaj R-squared = 0.9934 

source | Partial s5 af ms 下 Prob > F 

Nodel | 1617.34895 2 808.674477 2936.31 0.0000 

nethod | 1322.49997 1 1322.49997 4802.01 0.0000 

time | 294.848987 1 294.848987 1070.60 0.0000 
Residual 10.19 37 .275405405 
Toral | 1627.53895 39 41.731768 
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6.7 分 析 结 果 图 


\ SN 、 


\\\ 


至 此 ， 我 们 以 两 个 因素 介绍 了 多 因素 方差 分 析 的 应 用 。 事 实 上 ， 多 因素 方差 分 析 的 模型 
构建 是 非常 灵活 的 ,如 果 存 在 3 个 或 者 3 个 因素 以 上 ,我 们 要 纳入 任何 -- pp 
则 只 需 指定 有 关 变 量 名 称 ， 并 且 之 间 用 “#” 连 接 (注意, 之 前 的 很 多 Stata 版 本 用 的 是 “*” 


即 可 。 


6.2.5 ”案例 延伸 


上 述 的 Stata 命令 比较 简洁 ， 分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 
例如 ， 我 们 只 针对 renew 变量 大 于 11 的 观测 样本 进行 多 因素 方差 分 析 ， 那 么 操作 命令 即 为 : 


anova renew method time method# time if renew>11 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 6.8 所 示 。 


~ anova renew method time methodl time if renew>11 


R-squared = 0.9923 
= .523625 Adj R-squared = 0.9916 


ns 下 Prop > 了 


1065.52889 355.176296 。 1295.40 0.0000 
928.243661 928.243661 。 3385.49 0.0000 
198.740037 198.740037 724.84 0.0000 
.010227234 .010227234 0.04 0.8482 


8.22550068 .274183356 


1073.75439 32.5380118 


6.8 分 析 结果 图 


通过 观察 分 析 结 果 ， 我 们 可 以 看 出 共有 34 个 有 效 样本 参与 了 方差 分 析 。 


可 决 系数 (R-squared ) 以 及 修正 的 可 决 系数 (Adj R-squared ) 都 非常 接近 于 1， 这 说 
明 模 型 的 拟 合 程度 很 高 ， 也 就 是 说 模型 的 解释 能 力 很 强 。 

Prob > F Model=0.0000， 说 明 模型 的 整体 是 很 显著 的 。 

Prob > F method =0.0000， 说 明 变 量 method 的 主 效应 是 非常 显著 的 。 

Prob > Ftime =0.0000， 说 明 变 量 time 的 主 效应 也 是 非常 显著 的 。 

Prob > F method#time = 0.8482, 说 明 变 量 method 与 变量 time 的 交互 效应 是 不 显著 的 。 


6.3 ”实例 三 分 析 


协 方 差分 析 的 功能 与 意义 


协 方差 分 析 是 将 回归 分 析 同 方差 分 析 结 合 起 来 ， 以 消除 混杂 因素 的 影响 ， 是 对 试验 数据 
进行 分 析 的 一 种 分 析 方法 。 一 般 情况 下 , 协 方差 分 析 研 究 比 较 一 个 或 者 几 个 因素 在 不 同 水 平 上 
的 差异 , 但 观测 量 同 时 还 受 另 一 个 难以 控制 的 协 变量 的 影响 , 在 分 析 中 剔除 其 影响 ， 再 分 析 各 
因素 对 观测 变量 的 影响 。 
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6.3.2 ”相关 数据 来 源 


B= 下 载 资源 :\Wideo\chap06\… 


\ 
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画 下 载 资源 :\sample\chap06\ 正 文案 例 6.3.dta 


【 例 6.3】 某 学 校 实 施 新 政策 以 改善 部 分 年 轻 教师 的 生活 水 平 。 政 策 实施 后 开始 对 年 轻 教 
师 待 遇 的 改善 情况 进行 调查 ， 调 查 结果 如 表 6.3 所 示 。 用 实施 新 政策 后 的 工资 来 反映 生活 水 平 
的 提高 , 要求 剔除 实施 新 政策 前 的 工资 差异 ， 试 分 析 教 师 的 级 别 和 该 新 政策 对 年 轻 教师 工资 的 
提高 是 否 有 显著 的 影响 。 


表 6.3 年 轻 教师 工资 表 (单位 : 千 元 ) 


6.3.3 Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 5 个 变量 ， 分 别 为 年 
龄 、 原 工资 、 现 工资 、 教 师 级 别 和 政策 实施 。 我 们 把 年 龄 这 一 变量 设 定 为 age， 把 原 工资 这 一 
变量 设 定 为 beforesalary， 把 现 工资 这 一 变量 设 定 为 nowsalary， 把 教师 级 别 这 一 变量 设 定 为 
identity， 把 政策 实施 这 一 变量 设 定 为 policy， 并 且 用 “1” 表 示 “ 实 施政 策 ”， 而 用 “0” 表 示 
“没有 实施 政策 ”， 变 量 类 型 及 长 度 采取 系统 默认 方式 ， 然 后 录入 相关 数据 。 相 关 操 作 我 们 在 
第 1 章 中 已 有 详细 讲述 。 录 入 完成 后 数据 如 图 6.9 所 示 。 
EE 


EFT EEE | 
sel 了 


:i 


Reody Vers:5 Order Detaset Obs 30 


图 6.9 案例 6.3 数据 


rr a 
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先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 骤 如 下 : 


进入 Stata 14.0， 打 开 相 关 数 据 文 件 ， 弹 出 主 界面 。 
加 在 主 界面 的 “Command” 文 本 框 中 输入 如 下 命令 ( 旨 在 分 析 教 师 的 级 别 和 新 政策 对 
年 轻 教 师 工资 的 提高 是 否 有 显著 的 影响 ): 


anova nowsalary identity Policy c.beforesalary 
转 c.beforesalary 的 意义 是 说 明 beforesalary 是 一 个 连续 变量 ， 在 一 些 Stata 旧版 本 中 ， 本 全 
的 命令 应 该 是 : anova nowsalary identity policy,continuous(beforesalary)。 | 


国 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 


6.3.4 结果 分 析 


在 Stata 14.0 主 界面 的 结果 窗口 我 们 可 以 看 到 如 图 6.10 所 示 的 分 析 结 果 。 


. anova nowsalary identity policy c.beforesalary 


Number of obs = 30 R-squared = 0.8705 
Root NSE = .547489 Ad] R-squared = 0.8498 

Source | Partial ss dr ns 了 Prob > 了 
Nodel | 50.3730714 4 12.5932679 42.01 0.0000 
identity | .905719977 2 .452859989 1.51 0.2402 
policy | .002217987 1 .002217987 0.01 0.9321 
beforesal~y | 34.0025734 1 34.0025734 113.44 0.0000 


Residual | 7.49359522 。 25 .299743809 


图 6.10 分 析 结 果 图 
通过 观察 分 析 结 果 ， 我 们 可 以 看 出 共有 30 个 有 效 样本 参与 了 方差 分 析 。 


。 可 决 系数 (R-squared ) 以 及 修正 的 可 决 系数 ( Adj R-squared ) 都 超过 了 80%， 这 说 明 
模型 的 拟 合 程度 很 高 ， 也 就 是 说 模型 的 解释 能 力 很 强 。 

。 ”Prob > F Model=0.0000， 说 明 模 型 的 整体 是 很 显著 的 。 

。 ”Prob > F identity =0.2402， 说 明 变 量 identity 的 主 效应 是 非常 不 显著 的 。 

e “Prob > F policy =0.9321， 说 明 变 量 policy 的 主 效应 也 是 非常 不 显著 的 。 

。 ”Prob > 下 beforesalary =0.0000， 说 明 变 量 beforesalary 的 主 效应 是 非常 显著 的 。 

也 就 是 说 ， 教 师 的 级 别 和 新 政策 是 否 实施 对 年 轻 教师 工资 的 提高 都 没有 显著 的 影响 ， 而 
实施 新 政策 前 的 工资 差异 是 对 年 轻 教 师 的 现 有 工资 有 显著 影响 的 。 

在 此 基础 上 ， 我 们 可 以 对 模型 进行 改进 ， 即 引入 变量 的 交互 项 进行 深入 分 析 ， 我 们 在 主 
界面 的 “Command” 文 本 框 中 分 别 输入 下 列 命令 并 按键 盘 上 的 回 车 键 : 


anova nowsalary identity policy c.beforesalary c.beforesalary# identity 
C.beforesalary# Policy identity# policy 
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可 以 得 到 如 图 6.11 所 示 的 结果 。 


，amova nowsalary identity policy c.beforesalary c.beforesalary# identity oc.beforesalary# polioy j 
> qentityh policy 
Nunber of chs = 30 Raquared = 0.9551 
Foce BEE = .328897 24i peqmarea = 0.9458 
Seurce | Pertiol ss af ms F prob>F 
oadel | 553.2705128 5 11.0541026 102.19 0.0000 
oercicy | 3.36344929 2 2.68172262 24.79 0.0000 
policy | .492470492 1 .492470492 4.55 0.0433 
beforesal-y | 31.840922 1 31.840922 294.35 -0.0000 
identityHbetoresal~y | 4.89744137 1 4.89744137 45.27 0.0000 
policyAheforesal~y o 0 
identityfpolicy o 0 
Residual | 2.59615385 。 24 .108173077 
Toral | 57.8666667 29 1.9954023 


图 6.11 分 析 结 果 图 


在 本 分 析 结 果 中 ,我 们 可 以 看 到 c.beforesalary# policy identity# policy 这 两 个 交互 项 是 不 起 
作用 的 ， 所 以 我 们 要 把 它们 去 掉 ， 在 主 界面 的 “Command” 文 本 框 中 分 别 输入 下 列 命 令 并 按 
键盘 上 的 回 车 键 : 


anova nowsalary identity policy c.beforesalary c.beforesalary# identity 


可 以 得 到 如 图 6.12 所 示 的 结果 。 


anova nowsalary identity policy o.beforesalary o.beforesalaryl identity 


Nunber of obs = 30 R-aquared = 0.9551 
Root NSE = .328897 Ad] R-squared = 0.9458 

Source | Partial 55 df ns 人 Prob > 了 

Nodel | 55.2705128 5 11.0541026 102.19 0.0000 

identity | 5.36344525 2 2.68172262 24.79 0.0000 

policy | .492470492 1 .492470492 4.55 0.0433 

beforesal~y 31.840922 1 31.840922 294.35 0.0000 
identityfbeforesal~y | 4.89744137 1 4.89744137 45.27 0.0000 


Residual | 2.59615385 。 24 .108173077 


Toral | 57.8666667 29 1.9954023 


图 6.12 分 析 结 果 图 
通过 观察 本 分 析 结 果 ， 我 们 可 以 看 出 : 


可 决 系数 (R-squared ) 以 及 修正 的 可 决 系数 (Adj R-squared ) 得 到 进一步 提高 ， 超 过 

了 90%， 说 明 模型 的 拟 合 程度 得 到 了 进一步 提高 ， 也 就 是 说 模型 的 解释 能 力 变 强 了 。 

。 ”Prob > F Model=0.0000， 说 明 模 型 的 整体 是 很 显著 的 。 

。 ”Prob > F identity =0.0000， 说 明 变 量 identity 的 主 效应 是 非常 显著 的 。 

e Prob > F policy =0.0433， 说 明 变 量 policy 的 主 效应 也 是 显著 的 。 

。 ”Prob > 下 beforesalary =0.0000， 说 明 变 量 beforesalary 的 主 效应 是 非常 显著 的 。 

日 “Prob > F c.beforesalary# identity =0.0000, 说 明 变 量 beforesalary 与 identity 的 交互 效应 
是 非常 显著 的 。 

也 就 是 说 ， 教 师 的 级 别 、 新 政策 是 否 实施 、 实 施 新 政策 前 的 工资 差异 都 对 年 轻 教师 的 现 
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有 工资 有 显著 影响 ,教师 的 级 别 与 实施 新 政策 前 的 工资 差异 的 交互 效应 也 对 年 轻 教师 的 现 有 工 
资 有 显著 影响 。 

此 外 ， 我 们 可 以 针对 这 一 结果 进行 回归 分 析 ， 在 主 界面 的 “Command” 文 本 框 中 输入 下 
列 命令 并 按键 盘 上 的 回 车 键 


\ 


regress 
和 一 
可 以 得 到 如 图 6.13 所 示 的 结果 。 
egress 
source s5 ar 3 umber of cba = 30 
Fl 5, 24) = 102.19 
Nodel | 55.2705128 5 11.0541026 Prob > 了 = 0.0000 
Residual 2.59615385 24 .108173077 R-squared = 0.9551 
Ad] R-squared = 0.9458 
Tocal 57.8666667 29 1.9954023 Root MSE =- ,3289 
nowsalary Coef. Std. Err. t P>ltl [95* Conf. Interval] 
identiry 
2 1.903846 .4334928 4.39 0.000 。 1.009161 。 2.798531 
3 | -1.423077 .2745441 -5.18 0.000 。 -1.989708 ~.8564458 
1.policy 一 .4230769 “1982845 -2.13 0.043 -.8323161 -.0138378 
beforesalary 1.807692 .1356133 13.33 0.000 1.5278 2.087584 
identity#c.beforesalary 
2 | -.9038462 .1343289 -6.73 0.000 -1.181087 -~.6266049 
3 0 (omitter a) 
cons -5.95e-14 “3797773 -0.00 1.000 -.7838217 .7838217 


图 6.13 分 析 结 果 图 

在 这 个 结果 中 ， 我 们 可 以 发 现 前 面 的 实例 相当 于 把 nowsalary 这 一 变量 作为 因 变量 ， 把 
identity、policy、beforesalary、beforesalary 与 identity 的 交互 项 这 4 个 变量 作为 自 变量 进行 了 
回归 分 析 。 系 统 针对 每 个 分 类 自 变 量 (包括 identity、policy 以 及 beforesalary 与 identity 
的 交互 项 ) 创建 了 相应 的 虚拟 变量 , 这 里 要 把 单个 虚拟 变量 的 回归 系数 理解 为 它 对 因 变量 的 预 
测 值 或 者 条 件 平均 数 的 效应 。 例 如 ，1.policy 表示 那些 具有 同样 教师 级 别 以 及 同样 改革 前 工资 
的 年 轻 教师 中 , 接受 新 政策 改革 的 现 有 工资 要 比 没有 接受 新 政策 改革 的 低 42.30769 个 百分点 。 
此 外 ， 我 们 还 得 到 了 每 个 系数 的 置信 区 间 和 单项 T 检验 的 结果 ， 相 比 于 单纯 的 方差 分 析 ， 我 
们 从 这 一 结果 中 得 到 的 信息 要 丰富 得 多 。 


6.3.5 ”案例 延伸 


上 述 的 Stata 命令 比较 简洁 ， 分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 
例如 ， 我 们 只 针对 age 变量 大 于 26 的 观测 样本 进行 协 方差 分 析 ， 那 么 操作 命令 即 为 : 


anova nowsalary identity policy c.beforesalary if age>26 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 6.14 所 示 。 


立 


107 


AAA 


NN NN 
分 析 与 行业 应 用 案例 详解 第 2 版 ) NN 
\ \\\N\ 


| anova nowsalary identity policy c.beforesalary if age>26 


Number of obs = 25 R-squared = 0.8985 
Root HSE = .541736 adj R-squared = 0.8782 
Source | Partial ss af ws 了 Prob > 了 
Nodel | 51.9704348 4 12.9926087 44.27 0.0000 
identity | 1.81439507 2 .907197534 3.09 0.0676 
policy | .452084267 1 .452084267 1.54 0.2289 
beforesal~y | 34.8433685 1 34.8433685 118.73 0.0000 
Residual | 5.86956522 20 .293478261 
Tocal 57.84 24 2.41 


图 6.14 分 析 结 果 图 
通过 观察 分 析 结 果 ， 我 们 可 以 看 出 共有 25 个 有 效 样本 参与 了 方差 分 析 。 


。 可 决 系数 (R-squared ) 以 及 修正 的 可 决 系数 ( Adj R-squared ) 都 超过 了 80%， 说 明 模 
型 的 拟 合 程度 很 高 ， 也 就 是 说 模型 的 解释 能 力 很 强 。 

Prob > F Model=0.0000， 说 明 模型 的 整体 是 很 显著 的 。 

Prob > 下 identity =0.0676， 说 明 变 量 identity 的 主 效应 是 比较 不 显著 的 。 

Prob > F policy =0.2289， 说 明 变 量 policy 的 主 效应 也 是 非常 不 显著 的 。 

Prob > F beforesalary =0.0000， 说 明 变 量 beforesalary 的 主 效应 是 非常 显著 的 。 


6.4 实例 四 一 一 重复 测量 方差 分 析 


6.4.1 重复 测量 方差 分 析 的 功能 与 意义 


在 研究 中 ， 我 们 经 常 需要 对 同一 个 观察 对 象 重复 进行 多 次 观测 ， 这 样 得 到 的 数据 称 为 重 
复 测量 资料 , 而 对 于 重复 测量 资料 进行 方差 分 析 就 需要 采用 重复 测量 方差 分 析 方 法 。 重复 测量 
方差 分 析 与 前 述 的 方差 分 析 的 最 大 差别 在 于 : 它 可 以 考察 测量 指标 是 否 会 随 着 测量 次 数 的 增加 
而 变化 ， 以 及 是 否 会 受 时间 的 影响 。 


6.4.2 ”相关 数据 来 源 


【 例 6.4】 某 食品 公司 为 计划 改进 一 种 食品 的 销售 策略 而 提出 了 一 种 方案 ， 并 随机 选择 了 
20 个 销售 网 点 施行 销售 策略 , 表 6.4 为 所 调查 网 点 的 实施 策略 后 的 一 个 月 的 销售 量 (单位 :kg)。 
通过 分 析 说 明 这 种 方案 是 否 有 效 。 
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表 6.4 各 网 点 销售 量 统 计 表 


网 点 方案 销售 量 
实施 前 70 

2 实施 前 48 

3 实施 前 

4 实施 前 

5 区 前 

19 于 后 79 

20 实施 后 67 


6.4.3 Stata 分 析 过 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 3 个 变量 ， 分 别 为 网 
点 、 方 案 和 销售 量 。 我 们 把 网 点 变量 设 定 为 number， 把 方案 变量 设 定 为 plan， 并 且 把 实施 前 
设 定 为 1、 把 实施 后 设 定 为 2， 把 销售 量变 量 设 定 为 sale， 变 量 类 型 及 长 度 采 取 系 统 默 认 方式 ， 
然后 录入 相关 数据 。 相 关 操作 我 们 在 第 1 章 中 已 有 详细 讲述 。 录 入 完成 后 数据 如 图 6.15 所 示 。 


J pow dhor td -本 pi64dal 有 
用 Fie Edit view Data Tools 
容 回 吧 汉 也 国 委 了: 
nambertll 1 
apax Plan aale + Wanables | 
Lo | A Filter variables here 
BName lLabel 
到 4 2 [本 司 w number 
| ep 
一 EEC wsale 
. E | 
0 的 : 的 划 variables | Snaps 
a i 6 
| 一- CY Variables 
ey ee Name umber 
Label 
六 Type int 
加 一 Format %8.0g 
国 。 i Value label 
‘ » BData 
Ready Vars:3 Order Dataset Obs:40 Filter: Off Mode: Edit NUM 
| 


图 6.15 案例 6.4 数据 
先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 骤 如 下 : 


进入 Stata 14.0， 打 开 相 关 数 据 文件 ， 弹 出 主 界面 。 
贺 在 主 界面 的 “Command” 文本 框 中 输入 如 下 命令 ( 旨 在 分 析 说 明 这 种 方案 是 否 有 效 ): 


anova sale number plan,repeated (plan) 


辆 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等待 输出 结果 。 
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6.4.4 结果 分 析 


我 们 可 以 在 Stata 14.0 主 界面 的 结果 窗口 看 到 如 图 6.16 所 示 的 分 析 结 果 。 


anova sale number plan,repeated(plan) 


Number of obs = 40 R-squared = 0.7726 

Root HSE = 13.1535 adj R-squared = 0.5331 

Source | Partial ss qr ns 下 Prob > 了 

Wodel 11165.5 20 558.275 3.23 0.0067 

number 3241.275 。 19 170.593421 0.99 0.5121 

plan 7924.225 1 7924.225 45.80 0.0000 
Residual 3287.275 19 173.014474 
Total 14452.775 39 370.583974 


(19 dt 

Huynh-Feldt 1.0000 

Greenhouse 1.0000 

Bo 1.0000 

Prob > 了 
Source ar F Regular HF -6 Box 

Plan 1 45.80 0.0000 0.0000 0.0000 0.0000 

Residual 19 


6.16 分 析 结 果 图 


通过 观察 分 析 结 果 ， 我 们 可 以 看 出 共有 40 个 有 效 样本 参与 了 方差 分 析 。 
。 可 决 系数 (R-squared ) 以 及 修正 的 可 决 系数 ( Adj R-squared ) 都 在 S0% 以 上 ， 说 明 模 
型 的 拟 合 程度 还 是 可 以 的 ， 也 就 是 说 模型 的 解释 能 力 还 是 可 以 的 。 

。 “Prob > F Model=0.0067， 说 明 模 型 的 整体 是 很 显著 的 。 

。 Prob > Fnumber =0.5121， 说 明 变 量 number 的 效应 是 非常 不 显著 的 。 

。 ”Prob > F plan =0.0000， 说 明 变 量 plan 的 主 效应 是 非常 显著 的 。 

也 就 是 说 ， 销 售 量 的 大 小 与 网 点 是 没有 太 大 关系 的 ， 网 点 的 差异 对 销售 量 差 异 的 影响 程 
度 是 很 不 显著 的 。 而 方案 的 实施 却 对 销售 量 的 大 小 有 显著 影响 。 


6.4.5 ”案例 延伸 


上 述 的 Stata 命令 比较 简洁 ,分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 

例如 ， 我 们 只 针对 number 变量 大 于 3 的 观测 样本 进行 重复 测量 方差 分 析 ， 那 么 操作 命令 即 
为 : 

anova sale number Plan if number>3,repeated (plan) 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 6.17 所 示 。 
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-anova sale number plan if nuber>3,repeated(plan) 


Number of obs = 34 -squared = 0.7672 


Root NSE = 12.5119 Mdi R-squared = 0.5199 
Scurce | Partial ss af ws F Pop>F 
Fodel | 8256.29412 17 485.66436 3.10 0.0142 
nuber | 2818.05882 16 176.128676 1.13 -0.4083 

plan | 5438.23529 1 5438.23529 34.74 0.0000 

Residual | 2504.76471 16 156.547794 

Toral | 10761.0588 33 326.092692 


Between-subjects error term: number 
Levels: 17 (16 az) 
Loveat b.a.e. variable: number 


Repeated variable: Flan 


Huynh-Feldt epsilon 1.0000 
Greenhouse-Geisser epsilon = 1.0000 
Box s conservative epsilon = 1.0000 
Pzop > 了 
Scurce qr F Regular HF 6-6 Box 
Plan 1 34.74 9.0000 0.0000 0.0000 0.0000 
Residual 16 


图 6.17 分 析 结 果 图 
通过 观察 分 析 结 果 ， 我 们 可 以 看 出 共有 34 个 有 效 样本 参与 了 方差 分 析 。 
。 ”Prob>F Model= 0.0142， 说 明 模 型 的 整体 是 很 显著 的 。 


e Prob> Fnumber=0.4083， 说 明 变 量 number 的 效应 是 非常 不 显著 的 。 
。 Prob > F plan =0.0000， 说 明 变 量 plan 的 主 效应 是 非常 显著 的 。 


6.5 ”本 章 习 题 
(1) 表 6.5 给 出 了 4 种 包装 对 某 饮 料 销售 水 平 影响 的 测量 结果 ， 数 据 为 各 大 超市 20 天 的 
每 日 总 销售 量 。 试 用 单 因 素 方差 分 析 检 验 4 种 包装 对 饮料 销售 水 平 的 影响 是 否 相同 。 


表 6.5 4 种 包装 下 的 饮料 销售 水 平 
测量 编号 总 销售 量 / 瓶 包装 类 别 
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(2) 表 6.6 给 出 了 两 种 包装 和 两 种 口味 对 某 饮料 销售 水 平 的 影响 测量 结果 ， 数 据 为 4 种 
饮料 在 20 家 超市 一 天 的 总 销售 量 。 试 用 多 因素 方差 分 析 检 验 不 同 包 装 及 口味 对 饮料 销售 水 平 


的 影响 是 否 相 同 。 


表 6.6 4 种 饮料 在 20 家 超市 一 天 的 总 销售 量 


| b2 

(3) 某 医 院 实施 新 政策 以 改善 部 分 年 轻 医 生 的 生活 水 平 。 政 策 实 施 后 开始 对 年 轻 医生 待 
遇 的 改善 情况 进行 调查 ， 调 查 结果 如 表 6.7 所 示 。 用 实施 新 政策 后 的 工资 来 反映 生活 水 平 的 提 
高 , 要求 剔 除 实施 新 政策 前 的 工资 差异 , 试 分 析 医 生 的 级 别 和 新 政策 对 年 轻 医生 工资 的 提高 是 
否 有 显著 的 影响 。 


表 6.7 年 轻 医 生 工资 表 (单位 : 千 元 ) 
医生 级 别 政策 实施 
[7 4 4 1 | 百 | 


(4) 某 建材 公司 为 计划 改进 一 种 钢管 的 销售 策略 而 提出 了 一 种 方案 ， 并 随机 选择 了 20 
个 销售 网 点 , 施行 不 同 的 销售 策略 。 表 6.8 为 所 调查 网 点 实施 策略 后 的 一 个 月 的 销售 量 (单位 : 
个 ) 。 通 过 分 析 说 明 这 种 方案 是 否 有 效 。 
表 6.8 各 网 点 销售 量 统计 表 
方案 
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在 得 到 相关 数据 资料 后 ， 我 们 要 对 这 些 数 据 进 行 分 析 ， 研 究 各 个 变量 之 间 的 关系 。 相 关 
分 析 是 应 用 非常 广泛 的 一 种 方法 。 它 是 不 考虑 变量 之 间 的 因果 关系 而 只 研究 分 析 变 量 之 间 的 相 
关 关 系 的 一 种 统计 分 析 方 法 , 常用 的 相关 分 析 包 括 简单 相关 分 析 、 偏 相关 分 析 等 。 下 面 我 们 将 
分 别 介 绍 这 些 方法 在 实例 中 的 应 用 。 


7.1 实例 简单 相关 分 析 


7.1.1 简单 相关 分 析 的 功能 与 意义 


Stata 的 简单 相关 分 析 (Bivariate) 是 最 简单 也 是 最 常用 的 一 种 相关 分 析 (Correlate) 方法 ， 
其 基本 功能 是 可 以 研究 变量 间 的 线性 相关 程度 并 用 适当 的 统计 指标 表示 出 来 。 


7.1.2 ”相关 数据 来 源 


下 载 资源 :\video\chap07\… 


下 载 资源 :\sample\chap07\ 正 文 \ 案 例 7.1.dta 


【 例 7.1] 表 7.1 给 出 了 杭州 市 2006 年 市 区 分 月 统计 的 平均 温度 和 日 照 时 数 。 试 据 此 分 析 
平均 温度 和 日 照 时 数 的 相关 性 。 


表 7.1 杭州 市 2006 年 市 区 分 月 部 分 气象 概况 统计 
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在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 3 个 变量 ， 分 别 是 月 
份 、 平 均 温度 和 日 照 时 数 。 我 们 把 月 份 变量 设 定 为 month， 把 平均 温度 变量 设 定 为 em， 把 日 
照 时 数 变量 设 定 为 hour， 变 量 类 型 及 长 度 采 取 系 统 默认 方式 ， 然 后 录入 相关 数据 。 相 关 操作 
我 们 在 第 1 章 中 已 有 详细 讲述 。 录 入 完成 后 数据 如 图 7.1 所 示 。 


图 7.1 案例 7.1 数据 
先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 又 如 下 : 


四 进入 Stata 14.0， 打 开 相 关 数据 文件 ， 弹 出 主 界面 。 
在 主 界面 的 “Command” 文 本 框 中 输入 命令 ( 对 月 份 、 平 均 温度 和 日 照 时 数 3 个 变 
量 进 行 简单 相关 分 析 ): 


correlate month tem hour 


设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


7.1.4 结果 分 析 


我 们 可 以 在 Stata 14.0 主 界面 的 结果 窗口 看 到 如 图 7.2 所 示 的 分 析 结 果 。 


correlate month tem hour 


month 


1.0000 
0.3206 1.0000 
0.0536 0.7578 1.0000 


7.2 分 析 结 果 图 


从 上 述 分 析 结 果 中 可 以 得 到 很 多 信息 。 首 先 可 以 看 到 共有 12 个 样本 参与 了 分 析 (obs=12)， 
然后 可 以 看 到 变量 两 两 之 间 的 相关 系数 ， 其 中 month 与 tem 之 间 的 相关 系数 是 0.3206，month 
与 hour 之 间 的 相关 系数 是 0.0536，tem 与 hour 之 间 的 相关 系数 是 0.7578， 所 以 本 例 的 结论 是 
平均 温度 和 日 照 时 数 具 有 比较 高 的 正 相关 性 。 
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7.1.5 “案例 延伸 


上 述 的 Stata 命令 比较 简洁 ， 分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 

1. 延伸 1: 获得 变量 的 方差 协 方差 矩阵 

我 们 在 进行 数据 分 析 时 ， 很 多 时 候 需 要 使 用 变量 的 方差 协 方差 矩阵 。 该 操作 对 应 的 Stata 
命令 是 : 


Correlate month tem hour,covariance 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 7.3 所 示 。 


~ correlate month tem hour,covariance 


month tem hour 


13 
10.1909 77.7027 
9.34546 323,211 2341.01 


图 7.3 分 析 结 果 图 
从 上 述 分 析 结 果 中 可 以 看 到 变量 的 方差 协 方差 矩阵 ， 其 中 month 的 方差 是 13，tem 的 方 
差 是 77.7027，hour 的 方差 是 2341.01，month 与 tem 的 协 方差 是 10.1909，month 与 hour 的 协 
方差 是 9.34546，tem 与 hour 之 间 的 相关 系数 是 323.211。 
2. 延伸 2: 获得 相关 性 的 显著 性 检验 
该 操作 对 应 的 Stata 命令 是 : 
pwcorr month tem hour,sig 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 7.4 所 示 。 


-pvcorr month tem hour,sig 


| wn 


1.0000 


0.3206 1.0000 
0.3096 


0.0536 0.7578 
0.8687 ”0.0043 


7.4 分 析 结 果 图 


从 上 述 分 析 结 果 中 可 以 看 到 变量 的 相关 性 的 显著 性 检验 结果 。 其 中 , month 与 tem 之 间 的 
相关 性 显著 性 P 值 是 0.3096，month 与 hour 之 间 的 相关 性 显著 性 P 值 是 0.8687，hour 与 tem 
之 间 的 相关 性 显著 性 P 值 是 0.0043 。 

此 外 ， 还 有 一 种 更 为 精确 的 sidak 方法 。 该 操作 对 应 的 Stata 命令 是 : 


pwcorr month tem hour,sidak sig 


115 


AN 
II 
统计 分 析 与 行业 应 用 案例 详解 第 2 版 ) NN 
\\\N\ \\NA\ \\ \\\N\ 


. pwcorr month tem hour,sidak sig 


monch tem hour 
monch 1.0000 
tem 0.3206 1.0000 
0.6709 
hour 0.0536 0.7578 1.0000 
0.9977 0.0128 


7.5 分 析 结果 图 


从 上 述 分 析 结 果 中 可 以 看 到 变量 的 相关 性 的 显著 性 检验 结果 。 其 中 ,month 与 tem 之 间 的 
相关 性 显著 性 P 值 是 0.6709，month 与 hour 之 间 的 相关 性 显著 性 P 值 是 0.9977，hour 与 tem 
之 间 的 相关 性 显著 性 P 值 是 0.0128 。 

3. 延伸 3: 获得 相关 性 的 显著 性 检验 ， 并 进行 标注 

很 多 时 候 我 们 希望 能 够 一 目 了 然 地 看 出 变量 相关 在 不 同 的 置信 水 平 上 是 否 显著 ， 例 如 署 
信 水 平 为 99% 时 ， 对 应 的 Stata 命令 是 : 


Pwcorr month tem hour,sidak sig star(0.01) 


在 命令 窗口 输入 命令 并 按 回 车 键 进 行 确认 ， 结 果 如 图 7.6 所 示 。 


~ pwoorr month tem hour,sidak sig star(0.01) 


| wonth tem hour 


1.0000 


0.3206 1.0000 
0.6709 


0.0536 0.7578 1.0000 
0.9977 0.0128 


图 7.6 分 析 结 果 图 


从 上 述 分 析 结 果 图 中 可 以 看 出 所 有 变量 间 的 相关 关系 不 显著 。 如 果 把 置信 水 平 换 成 90%， 
那么 对 应 的 Stata 命令 是 : 


pwcorr month tem hour,sidak sig star(0.10) 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 7.7 所 示 。 


1 ， pwcorr month tem hour,sidak sig star(0.10) 


| month tem hour 
month 1.0000 
em 0.3206 1.0000 
0.6709 
hour 0.0536 0.7578* 1.0000 


0.9977 _0.0128 


7.7 分 析 结 果 图 
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可 以 看 出 在 90% 的 置信 水 平 下 ， 仅 有 hour 与 tem 的 相关 性 是 显著 的 。 
7.2 实例 二 一 一 偏 相关 分 析 


7.2.1 ” 偏 相关 分 析 的 功能 与 意义 

很 多 情况 下 ， 需 要 进行 相关 分 析 的 变量 的 取 值 会 同时 受到 其 他 变量 的 影响 ， 这 时 就 需要 
把 其 他 变量 控制 住 ， 然 后 输出 控制 其 他 变量 影响 后 的 相关 系数 。Stata 的 偏 相关 分 析 (Partial) 
过 程 就 是 为 解决 这 一 问题 而 设计 的 。 


(ES 


下 载 资源 :\ideo\chap07\… 


下 载 资源 :\sample\chap0\ 正 文 \ 案 例 7.2.dta 


【 例 7.2】 表 7.2 给 出 了 随机 抽取 的 山东 省 某 学 校 的 12 名 学 生 的 IQ 值 、 语 文成 绩 和 数学 
成 绩 。 因 为 语文 成 绩 和 数学 成 绩 都 受 IQ 的 影响 ， 所 以 试用 偏 相关 分 析 研 究 学 生 语文 成 绩 和 数 
学 成 绩 的 相关 关系 。 


表 7.2 12 名 学 生 的 IQ、 语 文成 绩 和 数学 成 绩 


7.2.3 Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 3 个 变量 , 分 别 是 IQ、 
语文 成 绩 和 数学 成 绩 。 我 们 把 IQ 变量 设 定 为 IQ， 把 语文 成 绩 变量 设 定 为 YW， 把 数学 成 绩 变 
量 设 定 为 SX， 变 量 类 型 及 长 度 采取 系统 默认 方式 ， 然 后 录入 相关 数据 。 相 关 操 作 我 们 在 第 1 
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章 中 已 有 详细 讲述 。 录 入 完成 后 数据 如 图 7.8 所 示 。 
Do iitortnn -F200 汪 三 写 一 二 | 


File Edit View Data Tools 
情 回 画 昌 豆 国人 和 了. 


Ey 100 
™ = Variables | 
EE | 本 A Filter variablesh 
革 一 全 一 @Name Label | 
和 3 
全 mw 
ecx 
© | 


ee 
Ready Vars3 Order:Dataset Obs:12 Fiter OF ModeEdit CAF NUM 2 

图 7.8 案例 7.2 数据 

先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 骤 如 下 : 


加 进入 Stata 14.0， 打 开 相关 数据 文件 ， 弹 出 主 界面 。 
在 主 界面 的 “Command” 文 本 框 中 输入 命令 : 


pcorr YW SX IQ 
加 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


在 Stata 14.0 主 界面 的 结果 窗口 我 们 可 以 看 到 如 图 7.9 所 示 的 分 析 结 果 。 


Partial and semipartial correlations of YW vith 


Partial Semipartial Partial Semipartial Significance 
Variable | Corr. Corr. Corr.*2 Corr.*2 Value 


sx 0.8933 0.2651 0.7980 0.0703 0.0002 
IQ | -0.1196 -0.0161 0.0143 0.0003 0.7261 


图 7.9 分 析 结 果 图 
通过 观察 分 析 结 果 ， 我 们 可 以 看 出 共有 12 个 有 效 样本 参与 了 方差 分 析 ， 在 控制 住 IQ 变 
量 的 情况 下 ， 语 文成 绩 和 数学 成 绩 的 偏 相 关系 数 (Partial Corr.) 是 0.8933 ， 显 著 性 水 平 
(Significance Value) 是 0.0002。 此 外 ， 该 结果 还 给 出 了 控制 住 数学 成 绩 变 量 的 情况 下 ， 语 文 


成 绩 和 IQ 之 间 的 偏 相 关 关 系 ， 它 们 的 偏 相 关系 数 (Partial Corr. ) 是 -0.1196， 显 著 性 水 平 
(Significance Value) 是 0.7261 。 
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7.2.5 “案例 延伸 


上 述 的 Stata 命令 比较 简洁 ,分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 

例如 ,我 们 仅 用 偏 相 关 分 析 研 究 IQ 值 在 100 以 上 的 学 生 语 文成 绩 和 数学 成 绩 的 相关 关系 。 
该 操作 对 应 的 Stata 命令 是 : 

pcorr YW SX IO if IO>100 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 7.10 所 示 。 


+ peorr YW SX IQ if IQ>100 
(obs=6) 


Partial and semipartial correlations of YW vith 


Partial Semipartial Partial Semipartial Significance 
Variable | Corr. Corr. Corr.^2 Corr.^2 Value 


Sx 0.2312 0.1200 0.0535 0.0144 0.7082 
IQ 0.5291 0.3149 0.2800 0.0992 0.3592 


图 7.10 分 析 结果 图 
通过 观察 分 析 结 果 ， 我 们 可 以 看 出 共有 6 个 有 效 样本 参与 了 方差 分 析 ， 在 控制 住 IQ 变量 
的 情况 下 ,语文 成 绩 和 数学 成 绩 的 偏 相关 系数 (Partial Corr.) 是 0.2312, 显著 性 水 平 (Significance 
Value) 是 0.7082。 此 外 ， 该 结果 还 给 出 了 控制 住 数学 成 绩 变 量 的 情况 下 ， 语 文成 绩 和 IQ 之 间 
的 偏 相关 关系 ,它们 的 偏 相 关系 数 (Partial Corr.) 是 0.5291， 显 著 性 水 平 (Significance Value) 
是 0.3592。 


7.3 本 章 习 题 


(1) 表 7.3 给 出 了 铁岭 、 朝 阳 和 萌 芦 岛 2006 年 各 月 的 平均 气温 情况 。 试 用 简单 相关 分 析 
方法 研究 这 3 个 地 区 月 平均 气温 的 相关 性 。 


表 7.3 ” 铁岭、 朝阳、 葫芦 岛 2006 年 各 月 平均 气温 统计 (单位: C) 


mloluls|lw lhl 
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(2) 某 研究 者 对 当地 的 塑料 制品 厂 的 工人 工龄 、 性 别 、 年 龄 和 月 工资 等 情况 展开 了 调查 ， 
数据 如 表 7.4 所 示 。 


表 7.4 某 塑 料 制品 厂 的 工人 情况 表 


编号 


001 


Q@ 试 在 控制 住 性 别 变量 的 情况 下 研究 年 龄 与 月 工资 的 偏 相 关 关系 。 
@ 试 在 控制 住 工龄 变量 的 情况 下 研究 年 龄 与 月 工资 的 偏 相 关 关 系 。 
@ 试 在 控制 住 年 龄 变量 的 情况 下 研究 工龄 与 月 工资 的 偏 相 关 关系 。 
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在 进行 数据 统计 分 析 时 ， 还 往往 会 遇见 变量 特别 多 的 情况 ， 而 且 很 多 时 候 这 些 变量 之 间 
还 存在 着 很 强 的 相关 关系 或 者 说 变量 之 间 存 在 着 很 强 的 信息 重合 , 如果 我 们 直接 对 数据 进行 分 
析 , 一 方面 会 带 来 工作 量 的 无 谓 加 大 ， 另 一 方面 还 会 出 现 一 些 模型 应 用 的 错误 , 于 是 主 成 分 分 
析 与 因子 分 析 应 运 而 生 。 这 两 种 分 析 方 法 的 基本 思想 都 是 在 不 损失 大 量 信息 的 前 提 下 , 利用 较 
少 的 独立 变量 来 替代 原来 的 变量 进行 进一步 的 分 析 。 下 面 我 们 将 分 别 介绍 这 两 种 方法 在 实例 中 
的 应 用 。 


8.1 实例 一 一 一 主 成 分 分 析 
8.1.1 ” 主 成 分 分 析 的 功能 与 意义 


在 实际 工作 中 ， 往 往 会 出 现 所 搜集 的 变量 间 存 在 较 强 相关 关系 的 情况 。 如 果 直 接 利用 数 
据 进 行 分 析 , 不 仅 会 使 模型 变 得 很 复杂 ， 还 会 带 来 多 重 共 线性 等 问题 。 主 成 分 分 析 提 供 了 解决 
这 一 问题 的 方法 , 其 基本 思想 是 将 众多 的 初始 变量 整合 成 少数 几 个 互相 无 关 的 主 成 分 变量 , 而 
这 些 新 的 变量 尽 可 能 地 包含 了 初始 变量 的 全 部 信息 ,然后 利用 这 些 新 的 变量 来 蔡 代 以 前 的 变量 
进行 分 析 。 


8.1.2 ”相关 数据 来 源 


和 下 载 资源 :\videovchap08\… 


图。 | 下 载 资源 samplachap08 正 文案 例 8.Ldta 


【 例 8.1】 表 8.1 给 出 了 我 国 近年 来 国民 经 济 的 主要 指标 统计 〈1998 一 2005) 。 试 用 主 成 
分 分 析 法 对 这 些 指标 提取 主 成 分 并 写 出 提取 的 主 成 分 与 这 些 指标 之 间 的 表达 式 。 

表 8.1 我 国 近年 来 国民 经 济 的 主要 指标 统计 〈1998 一 2005) 
全 国人 口 /万 | 农林 牧 渔业 总 


年 份 贡 产值 / 亿 元 2 粮食 /万 吨 “| 棉花 /万 吨 ”| 油料 /万 吨 
1998 124 810.0 24516.7 和 51 230.0 450.1 2313.9 
1999 125 909.0 24519.1 a 50 839.0 382.9 2601.2 
2000 126 743.0 24915.8 | 2955.0 
2001 127 627.0 26 179.6 2864.9 
2002 128 453.0 27 390.8 Ga 45 706.0 491.6 2 897.2 
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全 国人 口 /万 | 农林 牧 渔业 总 
人 产值 / 亿 元 

129 227.0 29 691.8 
229 988.0 36 239.0 
2005 | 130756.0 39 450.9 


8.1.3 ”Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 19 个 变量 ， 分 别 是 年 
份 、 全 国人 口 (万 人 ) 、 农 林牧渔 业 总 产值 ( 亿 元 ) 、 工 业 总 产值 ( 亿 元 ) 、 国 内 生产 总 值 ( 亿 
元 ) 、 全 社会 投资 总 额 ( 亿 元 ) 、 货 物 周 转 量 ( 亿 吨 千 米 )、 社 会 消费 品 零 售 总 额 ( 亿 元 〉、 
进出 口 贸易 总 额 ( 亿 元 ) 、 原 煤 ( 亿 吨 ) 、 发 电量 ( 亿 千 瓦 时 ) 、 原 油 (万 吨 ) 、 钢 (万 吨 ) 、 
汽车 (万 辆 ) 、 布 ( 亿 米 )、 糖 (万 吨 ) 、 粮 食 (万 吨 ) 、 棉 花 (万 吨 ) 和 油料 (万 吨 ) 。 我 
们 把 这 些 变量 分 别 定义 为 V1、V2、V3、V4、V5、V6、V7、V8、 V9、 V10、 Vll、 V12、V13、 
V14、V15、V16、V17、V18、V19。 变 量 类 型 及 长 度 采取 系统 默认 方式 ,然后 录入 相关 数据 。 
相关 操作 我 们 在 第 1 章 中 已 有 详细 讲述 。 录 入 完成 后 数据 如 图 8.1 所 示 。 


pars Editor (dr) - (We dl ee ~ = > | 
re Edit View Data Tools 

EL LE EE 

| vim ina 


粮食 /万 吨 ”| 棉花 /万 吨 ”| 油料 /万 吨 


43 069.5 
46 946.9 
48 402.2 


3 065.9 
571.4 3 077.1 


~ | |valve label 


Vars: 19 Order Dataset Obs:8_ Filter Off Mode;Edit CAP NUM » 


图 8.1 案例 8.1 数据 
先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 又 如 下 : 


进入 Stata 14.0， 打 开 相关 数据 文件 ， 弹 出 主 界面 。 
加 在 主 界面 的 “Command” 文 本 框 中 分 别 输入 如 下 命令 并 按键 盘 上 的 回 车 键 进行 确认 。 


日 ”correlate V2-V19: 本 命令 的 含义 是 对 全 国人 口 (万 人 )、 农 林牧渔 业 总 产值 ( 亿 元 )、 
工业 总 产值 ( 亿 元 )、 国 内 生产 总 值 ( 亿 元 )、 全 社会 投资 总 额 ( 亿 元 )、 货 物 周转 量 
( 亿 吨 千 米 )、 社 会 消费 品 零售 总 额 ( 亿 元 )、 进 出 口 贸 易 总 额 ( 亿 元 )、 原 煤 ( 亿 吨 )、 
发 电量 ( 亿 千 瓦 时 )、 原 油 (万 吨 )、 钢 (万 吨 )、 汽 车 (万 辆 )、 布 ( 亿 米 )、 糖 (万 
吨 )、 粮 食 (万 吨 )、 棉 花 (万 吨 ) 和 油料 (万 吨 ) 等 变量 进行 相关 性 分 析 。 

。 pca V2-V19: 本 命令 的 含义 是 对 全 国人 口 (万 人 )、 农 林牧渔 业 总 产值 ( 亿 元 )、 工 业 
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总 产值 ( 亿 元 )、 国 内 生产 总 值 ( 亿 元 )、 全 社会 投资 总 额 ( 亿 元 )、 货 物 周转 量 ( 亿 
吨 千 米 )、 社 会 消费 品 零售 总 额 ( 亿 元 )、 进 出 口 贸易 总 额 ( 亿 元 )、 原 煤 ( 亿 号 )、 发 
电量 ( 亿 千 瓦 时 )、 原油 (万 吨 )、 钢 (万 吨 )、 汽车 (万 辆 ) 布 ( 亿 米 入 糖 (万 吨 )、 
粮食 (万 吨 )、 棉 花 (万 吨 ) 和 油料 (万 吨 ) 等 变量 进行 主 成 分 分 析 。 


辆 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 8.2~ 图 8.4 所 示 的 分 析 结 果 。 


1.0000 
0.9144 。 1.0000 
0.9299 。 0.9880 
0.9119 

0.8980 

0.9141 

0.9386 

0.8829 

0.9047 

0.9274 

0.8654 

0.9002 

0.5585 

0.1409 -0. 
0.6608 

0.4507 


0.7278 0. 0.6867 0.7043 


ve 


1.0000 
-0.2006 

0.3122 -0- 
0.1570 -0- 


图 8.2 展示 的 是 参与 主 成 分 分 析 的 所 有 变量 之 间 的 方差 - 协 方 差 矩 阵 。 关 于 本 命令 以 及 结 
果 我 们 在 前 面 章 节 中 已 经 介绍 过 ， 此 处 不 再 袭 述 。 可 以 发 现 ， 本 例 中 有 很 多 变量 之 间 的 相关 关 
系 是 非常 强 的 ， 有 些 甚至 超过 了 90%， 这 说 明 变 量 之 间 存 在 着 相当 数量 的 信息 重 登 。 我 们 进 
行 主 成 分 分 析 把 众多 的 初始 变量 整合 成 少数 几 个 互相 之 间 无 关 的 主 成 分 变量 是 非常 有 必要 的 。 

图 8.3 展示 的 是 主 成 分 分 析 的 结果 。 其 中 最 左 列 〈Component) 表示 的 是 系统 提取 的 主 成 
分 名 称 ， 可 以 发 现 ， 我 们 的 Stata 总 共 提 取 了 18 个 主 成 分 。Eigenvalue 列表 示 的 是 系统 提取 的 
主 成 分 的 特征 值 , 特征 值 的 大 小 意味 着 该 主 成 分 的 解释 能 力 , 特征 值 越 大 解释 能 力 越 强 , 可 以 
发 现 Stata 提取 的 18 个 主 成 分 中 只 有 前 7 个 是 有 效 的 ， 因 为 Comp8~Comp18 的 特征 值 
(Eigenvalue) 均 为 0。Proportion 列表 示 的 是 系统 提取 的 主 成 分 的 方差 贡献 率 , 方差 贡献 率 同 
样 表示 主 成 分 的 解释 能 力 , 可 以 发 现 第 1 个 主 成 分 的 方差 贡献 率 为 0.8023, 表示 该 主 成 分 解释 


123 


NAN 
NN 


”stata 统 计 分 析 与 行业 应 用 案例 详解 ( 
AAAAAAAAAAAN \\NA\ \ \ 


第 2 版) 


NS、 
\\\ 


NN 


让 


了 所 有 变量 80.23% 的 信息 。 第 2 个 主 成 分 的 方差 贡献 率 为 0.0788， 表 示 该 主 成 分 解释 了 所 有 
变量 7.88% 的 信息 ， 依 次 类 推 。Cumulative 列表 示 的 是 主 成 分 的 累计 方差 贡献 率 ， 其 中 前 两 个 
主 成 分 的 方差 贡献 率 为 0.8812， 前 3 个 主 成 分 的 方差 贡献 率 为 0.9362， 依 次 类 推 。 


pea V2-v19 
principal components/correlarion Nunber of ops = 8 
Number of comp. = 7 
Trace 18 
Rotation: (unrotated = principal) Rho - 1.0000 
Component Eigenvalue Difference Proportion Cumulacive 
compl 14.442 13.0228 0.8023 .ao23 
Compz 1.41918 .429462 0.0788 0.8812 
comp3 .989717 。 .118447 0.0550 0.9362 
Comp4 -87127 .629391 0.0484 0.9846 
comps .2a1878 ,214668 0.0134 0.9980 
Comp6 .0272104 .0184781 oo15 0.9995 
comp? | .00873232 。 .00873232 0.o005 1.0000 
Comp8 0 0 0.0000 1.0000 
Comp9 o 0 0.0000 1.0000 
comp10 o o 0.0000 1.0000 
Comp11 o o 9.0000 1.0000 
Comp12 o o 0.0000 1.0000 
Comp13 o o 0.0000 1.0000 
Comp14 0 0 0.0000 1.0000 
Comp15 0 0 0.0000 1.0000 
comp16 o o 9.0000 1.0000 
Comp17 。 o 0.0000 1.0000 
comp16 o , 0.0000 1.0000 

图 8.3 分 析 结 果 图 

Tt Co conp7 | woexpiaines 

可 -0.0208 0.7802 0.3558 0.2120 -0.1105 o 

四 0.3401 -0.0339 。 0 0407 0.0747 .a109 o 

中 i0076 -0.0403 -0 0028 -00441 -0.2068 0 

Me -oaa52 -0.0439 -0 0632 -0.0008 lso0 

Me 0.0499 -01091 -0 0420 0.0156 9.2206 0 

vie One 09.26 。 0 3456 -0.6133 .2633 0 


图 8.4 展示 的 是 主 成 分 特征 向 量 矩 阵 ， 以 表明 各 个 主 成 分 在 各 个 变量 上 的 载荷 ， 从 而 可 以 
得 出 各 主 成 分 的 表达 式 。 值 得 一 提 的 是 , 在 表达 式 中 各 个 变量 已 经 不 是 原始 变量 ， 而 是 标准 化 


图 8.4 分 析 结 果 图 


变量 。 其 中 ， 前 两 个 特征 值 比较 大 的 主 成 分 的 表达 式 是 : 


comp1= 0.1377* 全 国人 口 +0.2605* 农 林牧渔 业 总 产值 +0.2390* 工 业 总 产值 +0.2560* 国 内 生 
产 总 值 +0.2618* 全 社会 投资 总 额 10.2606* 货 物 周转 量 +0.2600* 社 会 消费 品 零 售 总 额 


+0.2625* 进 出 口 贸易 总 额 10.2550* 原 煤 +0.2620* 发 电量 +0.2614* 原 油 +0.2610* 钢 
+0.2587* 汽 车 +0.2623* 布 +0.1504* 糖 -0.0679* 粮 食 +0.2187* 棉 花 +0.1913* 油 料 
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comp2=-0.0208* 全 国人 口 +0.0925* 农 林牧渔 业 总 产值 +0.3401 * 工 业 总 产值 +0.0458* 国 内 生 
产 总 值 +0.0460* 全 社会 投资 总 额 +10.0096* 货 物 周 转 量 -0.0069* 社 会 消费 品 零 售 总 额 
+0.0076* 进 出 口 贸易 总 额 +0.1459* 原 煤 -0.0452* 发 电量 +0.0088* 原 油 +0.0499* 钢 
-0.0437* 汽 车 -0.0147* 布 +0.1645* 糖 +0.7491* 粮 食 -0.1718* 棉 花 -0.4745* 油 料 

在 第 1 主 成 分 中 ， 除 粮食 变量 (V17) 以 外 的 变量 系数 比较 大 ， 可 以 看 成 是 反映 那些 变量 

的 综合 指标 ;在 第 2 主 成 分 中 ， 粮 食 变 量 的 系数 比较 大 ， 可 以 看 作 是 反映 粮食 的 综合 指标 。 

因为 主 成 分 分 析 只 不 过 是 一 种 矩阵 变换 ， 所 以 各 个 主 成 分 并 不 一 定 具 有 实际 意义 ， 本 例 
中 各 个 主 成 分 的 内 在 含义 就 不 是 很 明确 。 


8.1.5 ”案例 延伸 


上 述 的 Stata 命令 比较 简洁 ， 分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 

1. 延伸 1: 只 保留 特征 值 大 于 1 的 主 成 分 

在 上 例 中 可 以 看 到 ，Stata 总 共 提 取 了 7 个 有 效 的 主 成 分 ， 但 是 只 有 前 两 个 主 成 分 的 特征 
值 是 大 于 !1 的, 而 且 前 两 个 主 成 分 的 方差 贡献 率 达 到 了 0.8812, 基本 上 能 够 满足 我 们 进行 主 成 
分 分 析 的 初衷 。 那 么 能 否 只 保留 特征 值 大 于 1 的 主 成 分 呢 ? 

在 本 节 的 例子 中 ， 操 作 命 令 应 该 相应 地 修改 为 : 


pca V2-V19,mineigen (1) 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 8.5~ 图 8.6 所 示 。 


+ pea V2-V19 mineigen(1) 
Pprincipal components/correlation Number of oba = 8 
Number of comp. = 2 
Trace = 18 
Rotation: (unrotated = principal) Rho = 0.8812 
Componenr Eigenvalue ”Difference Proporcion 。 Cumulative 
Compl 14.442 13.0228 0.8023 0.8023 
Comp2 1.41918 -429462 0.0788 0.8812 
Comp3 .989717 .118447 0.0550 0.9362 
Compa .87127 .629391 0.0484 0.9846 
Comps .241878 .214668 0.0134 0.9980 
Comp5 .0272104 -0184781 0.0015 0.9995 
Comp7 .00873232 .00873232 0.0005 1.0000 
Compa o 0 0.0000 1.0000 
Comp9 0o 0 0.0000 1.0000 
Comp10 o 0 0.0000 1.0000 
Comp11 o o 0.0000 1.0000 
Comp12 o o 0.0000 1.0000 
Comp13 o o 0.0000 1.0000 
Comp14 o o 0.0000 1.0000 
Comp15 o 0 0.0000 1.0000 
Comp16 o 0 0.0000 1.0000 
Comp17 o o 0.0000 1.0000 
Comp18 o 0.0000 1.0000 


8.5 分析 结 果 图 
图 8.5 展示 的 内 容 与 上 例 一 致 。 
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Unexplained 


.7255 
.007487 
01052 
.05045 
.007295 
.01872 
.02349 
.004818 
.03091 
.005712 
.01307 
.01293 
.03062 
.006042 
.635 
.133 
.2674 
.1519 


图 8.6 分 析 结 果 图 

图 8.6 展示 的 是 仅 保留 特征 值 大 于 1 的 主 成 分 的 结果 , 本 例 中 只 有 前 两 个 主 成 分 的 特征 值 
大 于 1, 所 以 只 保留 了 前 两 个 主 成 分 进行 分 析 。 值得 说 明 的 是 , 图 8.6 最 后 一 列 (Unexplained) 
表示 的 是 该 变量 未 被 系统 提取 的 两 个 主 成 分 解释 的 信息 比例 , 例如 变量 V2 未 被 解释 的 信息 比 


例 就 是 72.55%。 这 种 信息 丢失 的 情况 是 我 们 舍弃 其 他 主 成 分 必然 付出 的 代价 。 
2. 延伸 2: 限定 提取 的 主 成 分 个 数 


在 有 些 情况 下 ， 可 能 受 某 些 条 件 的 制约 ， 我 们 仅 能 挑选 出 在 规定 数目 以 下 的 主 成 分 进行 
分 析 。 那 么 ， 我 们 能 和 否 限 定 提取 的 主 成 分 的 个 数 呢 ? 
在 本 节 的 例子 中 ， 例 如 我 们 只 想 提取 一 个 主 成 分 进行 分 析 ， 那 么 操作 命令 应 该 相应 地 修改 为 : 


pca V2-V19,components (1) 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 8.7 所 示 。 


.pea vz-vl9 ,components(1) 


rincipal components/correlation 


Nuiber of cbs 


Number of comp. 


Tras 


Principal components (eigenvectors) 


Rotation: (unrotated = principal) Rho Nels pt ns fd 
V2 0.1377 ,7261 
Component Eigervalue Difference Proporcion Cunulative V3 0.2605 .01963 
va | 0.2390 .1747 
cam 14.442 13.0228 0.8023 0.8023 ye | 2a68 .05343 
Campz 1.41918 0.0788 -0.8812 ve | ae D025 
Cems .00717 ins50 0 9a69 
Ccomp4 .97127 0.0404 0.9046 ed ers 
Cemp5 241878 0.0134 0.9980 va 200 2956 
Cemp6 -0272104 0.0015 0.9995 Ye 0.2625 “004899 
comr7 | 。 .ana73232 nn05 nn0n vio | 0.2550 .06112 
Cempe 9.0000 1.0000 Vil 0.2620 +008606 
Comps 全 30 和 全 2,8000 V12 0.2614 “01318 
ne ee via | 0.2610 .0165 
Comp12 09.n000 1.0000 4 OA ea 
2 De vis | 0.2623 .006349 
Comp14 0.0000 1.0000 V1i6 0.1504 .6734 
comp1s momo 1.o000 V17 | -0.0679 .9333 
compl6 oi0000 0000 vis | 0.2107 3092 
Carpa7 oo tio000 | | 
Campla wo ro000 
(b) 
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图 8.7 分 析 结 果 图 
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图 8.7 (a) 展示 的 内 容 与 上 例 一 致 。 
图 8.7(b) 展示 的 是 我 们 只 提取 一 个 主 成 分 进行 分 析 的 结果 , 该 图 最 后 一 列 (Unexplained) 
同样 说 明 的 是 该 变量 未 被 系统 提取 的 一 个 主 成 分 解释 的 信息 比例 , 例如 变量 V2 未 被 解释 的 信 
息 比 例 就 是 72.61%。 这 种 信息 丢失 的 情况 同样 也 是 我 们 舍弃 其 他 主 成 分 必然 付出 的 代价 。 


8.2 ”实例 二 一 一 因子 分 析 


因子 分 析 在 一 定 程度 上 可 被 视 作 主 成 分 分 析 的 深化 和 拓展 ， 它 对 相关 问题 的 研究 更 为 深 
入 透彻 。 因 子 分 析 的 基本 原理 是 将 具有 一 定 相关 关系 的 多 个 变量 综合 为 数量 较 少 的 几 个 因子 ， 
从 而 研究 一 组 具有 错综复杂 关系 的 实测 指标 是 如 何 受 少数 几 个 内 在 的 独立 因子 所 支配 的 ,所 以 
它 属于 多 元 分 析 中 处 理 降 维 问题 的 一 种 常用 的 统计 方法 。 


8.2.2 ”相关 数据 来 源 


B= 下 载 资源 :video\ehap08\… 


中 下 载 资源 :samplevchap08\ 正 文 \ 案 例 8.2.dta 


【 例 8.2】 表 8.2 同样 给 出 了 我 国 近年 来 国民 经 济 的 主要 指标 统计 (1992 一 2000 年 ) 数据 。 
试用 因子 分 析 法 对 这 些 指标 提取 公 因 子 并 写 出 提取 的 公 因子 与 这 些 指标 之 间 的 表达 式 。 


表 8.2 我国 近 年 来 国民 经 济 的 主要 指标 统计 “1992 一 2000 年 ) 


工业 总 产值 / | 国内 生产 总 值 | 货物 周转 量 / 发 电量 / 亿 干 
要 
1994 | 76 909.0 46 759.4 33 261.0 9281.0 
1995 “| 9%1893.8 | 58478.1 35 730.0 10 077.0 | 15 005.0 
1996 |995953 |67 884.6 36 454.0 10 813.0 | 15 733.0 
| 113732.7 “| 74 462.6 38 368.0 了 11 356.0 | 16 074.0 
38 046.0 11 670.0 
12393.0 
13 556.0 | 16 300.0 


1999 126 111.0 
2000 |85673.7 | 89403.5 


8.2.3 ”Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 7 个 变量 ， 分 别 是 年 
份 、 工 业 总 产值 、 国 内 生产 总 值 、 货 物 周转 量 、 原 煤 、 发 电量 和 原油 。 我 们 把 这 些 变 量 分 别 定 
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据 。 相 关 操 作 我 们 在 第 1 章 中 已 有 详细 讲述 。 录 入 完成 后 数据 如 图 8.8 所 示 。 


128 


口 pa Editor (Edit) - [sme2dtal 0 0 
File Edit View Data Tools 
证 加山 曲 半 国生 了 : 
wm 1992 
区 5 

1 

aa 

ass 

ass 

2900 | 

。| |Format 
Pr F Value label -| 
Ready Vars7 Order: Dataset oObs9 FikteF Off Mode: Edit CA NUM 2 
图 8.8 案例 8.2 数据 


因子 分 析 的 方法 有 很 多 种 , Stata 14.0 支持 4 种 因子 分 析 方 法 ,包括 主 成 分 因子 法 (Principal 
Component Factors) 、 主 因子 法 〈Principal Factors) 、 和 迭代 公 因 子 方差 的 主因 子 法 〈Iterated 
Principal Factors) 、 最 大 似 然 因子 法 (Maximum Likelihood Factors) 等 。 我 们 先 做 一 下 数据 保 
存 ， 然 后 开始 展开 分 析 。 


$s 


主 成 分 因子 法 


操作 步骤 如 下 : 


加 进入 Stata 14.0， 打 开 相 关 数 据 文件 ， 弹 出 主 界面 。 
在 主 界面 的 “Command” 文 本 框 中 分 别 输入 如 下 命令 并 按键 盘 上 的 回 车 键 进行 确认 。 


factor V2-V7,pcf:， 本 命令 的 含义 是 使 用 主 成 分 因子 法 对 工业 总 产值 、 国 内 生产 总 值 、 
货物 周转 量 、 原 煤 、 发 电量 、 原 油 变量 进行 因子 分 析 。 

rotate: 本 命令 的 含义 是 对 因子 结构 进行 旋转 。 

loadingplot,factors(2) yline(0) xline(0): 本 命令 的 含义 是 绘制 因子 旋转 后 的 因子 载荷 图 。 
predict fl 亿 : 本 命令 的 含义 是 显示 因子 得 分 系数 矩阵 。 

list V1 fl 亿 : 本 命令 的 含义 是 估计 因子 分 析 后 各 个 样本 的 因子 得 分 情况 。 

correlate fl 亿 : 本 命令 的 含义 是 展示 提取 的 主因 子 的 相关 系数 矩阵 。 
scoreplot,mlabel(V1) yline(0) xline(0): 本 命令 的 含义 是 展示 每 个 样本 的 因子 得 分 示意 图 。 
estat kmo: 本 命令 的 含义 是 显示 KMO 检验 的 结果 。 

screeplot: 本 命令 的 含义 是 绘制 因子 分 析 的 碎 石 图 。 


国 设置 完毕 后 ， 等 待 输出 结果 。 


区 


.主因 子 法 


操作 步骤 如 下 : 


i 打开 相关 数据 文件 ， 弹 出 主 界面 。 
贺 在 主 界面 的 “Command” 文 本 框 中 分 别 输入 如 下 命令 ， 并 按键 盘 上 的 回 车 键 进行 确认 。 


e。 factor V2-V7,pf: 本 命令 的 含义 是 使 用 主因 子 法 对 工业 总 产值 、 国 内 生产 总 值 、 货 物 
周转 量 、 原 煤 、 发 电量 、 原 油 变量 进行 因子 分 析 。 

rotate: 本 命令 的 含义 是 对 因子 结构 进行 旋转 。 

loadingplot,factors(2) yline(0) xline(0): 本 命令 的 含义 是 绘制 因子 旋转 后 的 因子 载荷 图 。 
predict fl 亿 f3 他: 本 命令 的 含义 是 显示 因子 得 分 系数 矩阵 。 

list V1 人 但 亿 : 本 命令 的 含义 是 估计 因子 分 析 后 各 个 样本 的 因子 得 分 情况 。 
correlate fl 亿 人 3 他: 本 命令 的 含义 是 展示 提取 的 主因 子 的 相关 系数 矩阵 。 
scoreplot,mlabel(V1) yline(0) xline(0): 本 命令 的 含义 是 展示 每 个 样本 的 因子 得 分 示意 图 。 
estat kmo: 本 命令 的 含义 是 显示 KMO 检验 的 结果 。 

screeplot: 本 命令 的 含义 是 绘制 因子 分 析 的 碎 石 图 。 


设置 完毕 后 ， 等 待 输出 结果 。 
3. 迭代 公 因 子 方差 的 主因 子 法 
操作 步骤 如 下 : 


四 进入 Stata 14.0， 打 开 相 关 数据 文件 ， 弹 出 主 界面 。 
在 主 界面 的 “Command” 文 本 框 中 分 别 输入 如 下 命令 ， 并 按键 盘 上 的 回 车 键 进行 确 


e ”factor V2-V7,ipf: 本 命令 的 含义 是 使 用 迭代 公 因 子 方差 的 主因 子 法 对 工业 总 产值 、 国 
内 生产 总 值 、 货 物 周转 量 、 原 煤 、 发 电量 、 原 油 等 变量 进行 因子 分 析 。 

rotate: 本 命令 的 含义 是 对 因子 结构 进行 旋转 。 

loadingplot,factors(2) yline(0) xline(0): 本 命令 的 含义 是 绘制 因子 旋转 后 的 因子 载荷 图 。 
predict fl 亿 人 3 伺 合 : 本 命令 的 含义 是 显示 因子 得 分 系数 矩阵 。 

list V1 和 亿 亿 但 位 伍 : 本 命令 的 含义 是 估计 因子 分 析 后 各 个 样本 的 因子 得 分 情况 。 
correlate 人 l 他 亿 他 名 : 本 命令 的 含义 是 展示 提取 的 主因 子 的 相关 系数 矩阵 。 
scoreplot,mlabel(V1) yline(0) xline(0): 本 命令 的 含义 是 展示 每 个 样本 的 因子 得 分 示意 图 。 
estat kmo: 本 命令 的 含义 是 显示 KMO 检验 的 结果 。 

screeplot: 本 命令 的 含义 是 绘制 因子 分 析 的 碎 石 图 。 


加 设置 完毕 后 ， 等 待 输出 结果 。 
4. 最 大 似 然 因子 法 
操作 步骤 如 下 : 


加 进入 Stata 14.0， 打 开 相 关 数 据 文件 ， 弹 出 主 界面 。 
贺 在 主 界面 的 “Command” 文 本 框 中 分 别 输入 如 下 命令 ， 并 按键 盘 上 的 回 车 键 进行 确认 。 


。 factor V2-V7,ml: 本 命令 的 含义 是 使 用 最 大 似 然 因子 法 对 工业 总 产值 、 国 内 生产 总 值 、 


ee 
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货物 周转 量 、 原 煤 、 发 电量 、 原 油 变量 进行 因子 分 析 。 
e。 rotate: 本 命令 的 含义 是 对 因子 结构 进行 旋转 。 
。 ”loadingplot,factors(2) yline(0) xline(0): 本 命令 的 含义 是 绘制 因子 旋转 后 的 因子 载荷 图 。 
。 predictfl 亿 f3: 本 命令 的 含义 是 显示 因子 得 分 系数 矩阵 。 
。 list V1lfl 亿 f3: 本 命令 的 含义 是 估计 因子 分 析 后 各 个 样本 的 因子 得 分 情况 。 
ecorrelate fl 亿 人 所 : 本 命令 的 含义 是 展示 提取 的 主因 子 的 相关 系数 矩阵 。 
e scoreplot,mlabel(V1) yline(0) xline(0): 本 命令 的 含义 是 展示 每 个 样本 的 因子 得 分 示意 图 。 
。 estat kmo: 本 命令 的 含义 是 显示 KMO 检验 的 结果 。 
escreeplot: 本 命令 的 含义 是 绘制 因子 分 析 的 碎 石 图 。 


加 设置 完毕 后 ， 等 待 输出 结果 。 


8.2.4 结果 分 析 


在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 8.9~ 图 8.48 所 示 的 分 析 结 果 。 


1. 主 成 分 因子 法 
主 成 分 因子 法 的 分 析 结果 如 图 8.9~ 图 8.18 所 示 。 其 中 , 图 8.9 展示 的 是 因子 分 析 的 基本 情况 。 


， factor V2-V7 vBcf 


(obs=9) 
|Faccor analysis/correlation Number of obs 9 
Nethod: principal-component factors Retained factors ~ 2 
Rotation: (unrocaced) Number of params ~ 11 
Factor Eigenvalue Ditference Proportion Cumulative 
Factorl 4.62295 3.46758 0.7705 0.7705 
Factor2 1.15537 0.99083 0.1926 0.9631 
Factor3 0.16454 0.11057 0.0274 0.9905 
Factor4 0.05397 0.05152 0.0090 0.9995 
Factors 0.00245 0.00172 0.0004 0.9999 
Facror6 0.00072 0.0001 1.0000 


LR test: independent vs. saturated: chi2(15) = 100.47 Prob>chi2 = 0.0000 


Factor loadings (paccern matrix) and unique variances 


Variable | Factorl Factorz Uniqueness 
ve 0.8693 。 0.3641 0.1117 
wa 0.9989 。 0.0022 0.0021 
va 0.9679 -0.1732 0.0331 
V5 | -0.0612 0.9857 0.0246 
ve 0.9861 = -0.1380 0.0085 
mm 0.9779 0.0464 0.0416 


8.9 ”因子 分 析 的 基本 情况 


图 8.9 的 上 半 部 分 说 明 的 是 因子 分 析 模 型 的 一 般 情况 , 从 图 中 我 们 可 以 看 出 共有 9 个 样本 
(Number of obs=9) 参与 了 分 析 ， 提 取保 留 的 因子 共有 两 个 (Retained factors=2) ， 模 型 LR 


检验 的 卡 方 值 (LR test: independent vs. saturated: chi2(15)) 为 100.47,P 值 (Prob>chi2 ) 为 0.0000， 
模型 非常 显著 。 图 8.9 的 上 半 部 分 最 左 列 (Factor) 说 明 的 是 因子 名 称 ， 可 以 看 出 模型 共 提 取 


了 6 个 因子 。Eigenvalue 列表 示 的 是 提取 因子 的 特征 值 情况 ， 只 有 前 两 个 因子 的 特征 值 是 大 于 
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1 的 ， 其 中 第 1 个 因子 的 特征 值 是 4.62295， 第 2 个 因子 的 特征 值 是 1.15537。Proportion 列表 
示 的 是 提取 因子 的 方差 贡献 率 ， 其 中 第 1 个 因子 的 方差 贡献 率 为 77.05%， 第 2 个 因子 的 方差 
贡献 率 为 19.26%。Cumulative 列表 示 的 是 提取 因子 的 累计 方差 贡献 率 ， 其 中 前 两 个 因子 的 累 
计 方 差 贡 献 率 为 96.31%。 

图 8.9 的 下 半 部 分 说 明 的 是 模型 的 因子 载荷 矩阵 以 及 变量 的 未 被 解释 部 分 。 其 中 , Variable 
列表 示 的 是 变量 名 称 ，Factor1、Factor2 两 列 分 别 说 明 的 是 提取 的 前 两 个 主因 子 〈 特 征 值 大 于 
1 的 ) 对 各 个 变量 的 解释 程度 ， 本 例 中 ，Factorl 主要 解释 的 是 V2、V3、V4、V6、V7 这 5 个 
变量 的 信息 ，Factor2 主要 解释 的 是 V5 变量 的 信息 。Uniqueness 列表 示 变 量 未 被 提取 的 前 两 个 
主因 子 解 释 的 部 分 ， 可 以 发 现在 舍弃 其 他 主因 子 的 情况 下 ， 信 息 的 损失 量 是 很 小 的 。 

图 8.10 展示 的 是 对 因子 结构 进行 旋转 的 结果 。 经 过 学 者 们 的 研究 表明 ， 旋 转 操 作 有 助 于 
进一步 简化 因子 结构 。Stata 14.0 支持 的 旋转 方式 有 两 种 : 一 种 是 最 大 方差 正 交 旋 转 ， 一 般 适 
用 于 互相 独立 的 因子 或 者 成 分 ， 也 是 系统 默认 的 情况 ;另外 一 种 是 promax 斜 交 旋转 ， 允 许 因 
子 或 者 成 分 之 间 存 在 相关 关系 。 此 处 我 们 选择 系统 默认 方式 ,当然 我 们 后 面 的 操作 也 证 明了 这 
样 做 的 恰当 性 。 


，rotate 


Factor analysis/correlation Number of cba = 9 
Method: principal-component factors Retained factors = 2 
Rotation: orthogonal varimax (Kaiser off) Number of params = 11 

Factor Variance ”Difference Proportion Cumulative 
Factorl 4.62272 3.46711 0.7705 0.7705 
Factor2 1.15560 0.1926 0.9631 


LR test: independent vs, saturated: chi2(15) = 100.47 Prob>chi2 = 0.0000 


Rotated factor loadings (pattern matrix) and unique variances 


Variable | Factorl Factor 2 Uniqueness 
ve 0.8723 。 0.3570 0.1117 
va 0.9989 -0.0060 0.0021 
va 0.9665 -0.1811 0.0331 
V5 | -0.0531 0.9862 0.0246 
ve 0.9849 -0.1461 0.0085 
wm 0.9782 。 0.0384 0.0416 

acr: tation matrti 


Factorl Factor2 


Factor1 | 1.0000 -0.0082 
Factor2 | 0.0082 1.0000 


图 8.10 ”对 因子 结构 进行 旋转 


图 8.10 包括 3 部 分 内 容 ， 第 1 部 分 说 明 的 是 因子 旋转 模型 的 一 般 情况 ， 从 图 中 我 们 可 以 

看 出 共有 9 个 样本 (Number of obs =9) 参 与 了 分 析 , 提 取保 留 的 因子 共有 两 个 (Retained factors= 
) ， 模 型 LR 检验 的 卡 方 值 (LR test: independent vs. saturated: chi2(15)) 为 100.47, P 值 

(Prob>chi2) 为 0.0000， 模 型 非常 显著 。 最 左 列 (Factor) 说 明 的 是 因子 名 称 ， 可 以 看 出 模型 

旋转 后 共 提取 了 两 个 因子 。Proportion 列表 示 的 是 提取 因子 的 方差 贡献 率 ， 其 中 第 1 个 因子 的 
方差 贡献 率 为 77.05%， 第 2 个 因子 的 方差 贡献 率 为 19.26%。Cumulative 列表 示 的 是 提取 因子 
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的 累计 方差 贡献 率 ， 其 中 前 两 个 因子 的 累计 方差 贡献 率 为 96.31%。 

图 8.10 的 第 2 部 分 说 明 的 是 模型 的 因子 载荷 矩阵 以 及 变量 的 未 被 解释 部 分 .其 中 ,Variable 
列表 示 的 是 变量 名 称 ，Factorl 、Factor2 两 列 分 别 说 明 的 是 旋转 提取 的 两 个 主因 子 对 各 个 变量 
的 解释 程度 ,本 例 中 ，Factorl 主要 解释 的 是 V2、V3、V4、V6、V7 这 5 个 变量 的 信息 ，Factor2 
主要 解释 的 是 V5 变量 的 信息 。Uniqueness 列表 示 变 量 未 被 提取 的 前 两 个 主因 子 解释 的 部 分 ， 
可 以 发 现在 舍弃 其 他 主因 子 的 情况 下 ， 信 息 的 损失 量 是 很 小 的 。 

图 8.10 的 第 3 部 分 展示 的 是 因子 旋转 矩阵 的 一 般 情 况 , 提取 的 两 个 因子 不 存在 相关 关系 。 

图 8.11 展示 的 是 因子 旋转 后 的 因子 载荷 图 。 因 子 载荷 图 可 以 使 用 户 更 加 直观 地 看 出 各 个 
变量 被 两 个 因子 的 解释 情况 。 


Factor loadings 


Noea pneta reamp ner tadors 
图 8.11 因子 载荷 图 


与 前 面 的 分 析 相 同 ， 我 们 发 现 V2、V3、V4、V6、V7 这 5 个 变量 的 信息 主要 被 Factorl 
这 一 因子 所 解释 ，V5 变量 主要 被 Factor2 这 一 因子 所 解释 。 

图 8.12 展示 的 是 因子 分 析 后 各 个 样本 的 因子 得 分 情况 。 因 子 得 分 的 概念 是 通过 将 每 个 变 
量 标准 化 为 平均 数 等 于 0 和 方差 等 于 1, 然后 以 因子 分 析 系 数 进行 加 权 合 计 为 每 个 因子 构成 的 
线性 情况 。 以 因子 的 方差 贡献 率 为 权 数 对 因子 进行 加 权 求 和 , 即 可 得 到 每 个 样本 的 因子 综合 得 
分 。 

根据 图 8.12 展示 的 因子 得 分 系数 和 矩阵， 我 们 可 以 写 出 各 公 因 子 的 表达 式 。 值 得 一 提 的 是 ， 
在 表达 式 中 各 个 变量 已 经 不 是 原始 变量 ， 而 是 标准 化 变量 。 


prediot £1 £2 
regression scoring asswved) 


coring coefficients (method = regression; based on varimax rotated factors) 


Variable | Factorl Factorz 


V2 | 0.19062 0.31358 
V3 | 0.21609 0.00010 
Va | 0.20814 -0.15159 
V5 | -0.00625 0.85323 
Ve | 0.21232 -0.12120 
Ww7 | 0.21185 0.03840 


图 8.12 因子 得 分 情况 
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F1=0.19062* 工 业 总 产值 +0.21609* 国 内 生产 总 值 +0.20814* 货 物 周转 量 -0.00625* 原 煤 
+0.21232* 发 电量 +0.21185* 原 油 


F2=0.31358* 工 业 总 产值 +0.0001* 国 内 生产 总 值 -0.15159* 货 物 周转 量 +0.85323* 原 煤 
-0.1212*# 发 电量 +0.03840* 原 油 


选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 8.13 所 示 的 因子 得 分 数据 。 


画 Data Editor (Edit) - [案例 8. 2] 
Eile Edit Data Tools 


EAT? ms 


[1] 1. 6258638 


\ \ 
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WW \ 


ve 
37066 
S2692 
76909 


va 
26638.1 
34634.4 
46759.4 


w 
14210 
14524 


146os [es 


但 


-1.625884 


-1.216697 
5732 


-7525918 
.4916763 
1536061 


Yurisble Label 
EE 


91893.8 58478.1 15005 =,2043556 .9085287 网 如 
1.190549 万 
1.083627 

424078 ver 


.9811613 -~.8075529 


99595.3 67884.6 15733 (e2390848 


113732.7 74462.6 16074 Properties 
119048 78345 16100 
126111 2067 16000 


85673.7 


6272416 
7317871 Sos 


Label Cdifferent value 
1.176235 -1.708568 vy Type 也 oat 
>» Fornat 其 ,of 


Vars: 9 Order: Dataset Obs: 9 


图 8.13 数据 查看 界面 
当然 ， 也 可 以 通过 命令 形式 实现 ， 分 析 结 果 如 图 8.14 所 示 。 


89403.5 16300 


Filter: Off Node; Edit 


.1ist Vi TI1 了 2 


£1 £2 


-1.625884 
-1.216697 
~.7085732 
-.2043556 

.2390848 


一 .7525918 
一 .4916763 
.1536061 
.9085287 
1.190549 


.6272416 
.7317871 
.9811613 
1.176235 


1.083627 

424078 
一 .8075529 
-1.708568 


图 8.14 分 析 结 果 图 
图 8.15 展示 的 是 系统 提取 的 两 个 主因 子 的 相关 系数 矩阵 。 


. correlate £1 £2 


{obs=9) 
£1 £2 
£1 1.0000 
f2 | -0.0000 1.0000 


图 8.15 ”两 个 主因 子 的 相关 系数 矩阵 


从 图 8.15 中 可 以 看 出 ， 我 们 提取 的 两 个 主因 子 之 间 几 乎 没有 任何 相关 关系 ， 这 也 说 明了 
我 们 在 前 面 对 因 子 进行 旋转 的 操作 环节 中 采用 最 大 方差 正 交 旋转 方式 是 明智 的 值得 说 明 的 是 
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图 中 了 全 与 包 的 相关 系数 是 -0.0000， 并 非 是 不 正确 的 ， 这 是 因为 Stata 14.0 只 保留 了 4 位 小 数 
所 导致 的 ， 例 如 真实 的 数据 有 可 能 是 -0.00001， 那 么 结果 显示 的 只 是 -0.0000。 
图 8.16 展示 的 是 每 个 样本 的 因子 得 分 示意 图 。 


Score variables (factor) 


Dood pom eap ere acors 
图 8.16 每 个 样本 的 因子 得 分 示意 图 


从 图 8.16 中 可 以 看 出 ， 所 有 的 样本 被 分 到 4 个 象限 ， 其 中 第 1 象限 包括 1996 年 、1997 
年 、1998 年 这 3 年 的 两 个 因子 得 分 都 比较 高 ; 第 2 象限 包括 1994 年 、1995 年 ， 这 两 年 的 因 
子 2 得 分 较 高 ， 而 因子 1 得 分 较 低 ; 第 3 象限 包括 1992 年 、1993 年 ， 这 两 年 的 两 个 因子 得 分 
都 比较 低 ， 第 4 象限 包括 1999 年 、2000 年 ， 这 两 年 的 因子 1 得 分 较 高 ， 而 因子 2 得 分 较 低 。 
图 8.17 展示 的 是 本 例 因子 分 析 的 KMO 检验 结果 。 


.estat kmo 


Kaiser-Neyer-Olkin measure of sampling adequacy 


8.17 KMO 检验 结果 


KMO 检验 是 为 了 判断 数据 是 否 适 合 进行 因子 分 析 ， 其 取 值 范 围 是 0~1。 其 中 ,0.9~1 表示 
极 好 、0.8~0.9 表示 可 奖励 、0.7~0.8 表示 还 好 、0.6~0.7 表示 中 等 、0.5~0.6 表示 糟糕 、0~0.5 表 
示 不 可 接受 。 本 例 中 总 体 〈Overall) KMO 的 取 值 为 0.6566， 表 明 可 以 进行 因子 分 析 。 各 个 变 
量 的 KMO 值 也 大 多 在 0.6 以 上 ， 所 以 本 例 是 比较 适合 因子 分 析 的 ， 模 型 的 构建 是 有 意义 的 。 

图 8.18 展示 的 是 本 例 因 子 分 析 所 提取 的 各 个 因子 的 特征 值 碎 石 图 。 
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Scree plot of eigenvalues after factor 


T T T T 
1 - 3 4 5 


| 


图 8.18 各 个 因子 的 特征 值 碎 石 图 

通过 碎 石 图 可 以 非常 直观 地 观测 出 提取 因子 的 特征 值 的 大 小 情况 。 图 8.18 的 横 轴 表示 的 
是 系统 提取 因子 的 名 称 , 并 且 已 经 按 特征 值 大 小 进行 降序 排列 , 纵 轴 表示 因子 特征 值 的 大 小 情 
况 。 从 图 8.18 中 可 以 轻松 地 看 出 本 例 中 只 有 前 两 个 因子 的 特征 值 是 大 于 1 的 。 

2. 主因 子 法 

主因 子 法 的 分 析 结 果 如 图 8.19~ 图 8.28 所 示 。 其 中 ， 图 8.19 展示 的 是 因子 分 析 的 基本 情 
况 。 


einvalid on ry yalues of un 


Factor Eigenvalue Ditfererce preportion Cumlacive 
.61013 3.52397 .aoa7 .aoa7 

0.98616 0.98308 0.1721 0.9768 

0.10308 0.06843 .0180 0.9948 

0.03465 0.03614 0.0060 1.0008 

-0.00149 0.00160 -0.0003 1.0006 


-0.00317 -0.0006 1.0000 


= 100.47 Prob>chiz = 0.0000 


Variable | Fastorl Factori Tector3 ， Factcra | tniquensss 


v2 | os6z8 0.3868 -0.2349 -0.0274 
va| 10001 0.0021 0.0215 0.0068 


99 | 0.9682 -0.1896 0.1137 0.0962 
vs | -0.0587 0.8807 0.1408 。 0.0218 
ve | 0.s072 -0.1503 0.0439 。 0.0271 
| 0.9747 0.0490 -0.0546 -0.1529 0.0211 


8.19 分 析 结果 图 


图 8.19 的 上 半 部 分 说 明 的 是 因子 分 析 模型 的 一 般 情 况 ， 从 图 中 我 们 可 以 看 出 共有 9 个 样 
本 (Number ofobs = 9) 参与 了 分 析 ， 提 取保 留 的 因子 共有 4 个 (Retained factors = 4) ， 模 型 
LR 检验 的 卡 方 值 (LR test: independent vs. saturated: chi2(15)) 为 100.47，P 值 (Prob>chi2) 
为 0.0000， 模 型 非常 显著 。 图 8.19 的 上 半 部 分 最 左 列 (Factor) 说 明 的 是 因子 名 称 ， 可 以 看 出 
模型 共 提 取 了 6 个 因子 。Eigenvalue 列表 示 的 是 提取 因子 的 特征 值 情 况 ， 只 有 第 1 个 因子 的 特 
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Proportion 列表 示 的 是 提取 因子 的 方差 贡献 率 ， 其 中 第 1 个 因子 的 方差 贡献 率 为 80.47%， 第 2 
个 因子 的 方差 贡献 率 为 17.21%。Cumulative 列表 示 的 是 提取 因子 的 累计 方差 贡献 率 ， 其 中 前 
两 个 因子 的 累计 方差 贡献 率 为 97.68%。 

图 8.19 的 下 半 部 分 说 明 的 是 模型 的 因子 载荷 矩阵 以 及 变量 的 未 被 解释 部 分 。 其 中 , Variable 
列表 示 的 是 变量 名 称 ，Factor1、Factor2、Factor3、Factor4 共 4 列 分 别 说 明 的 是 提取 的 4 个 主 
因子 对 各 个 变量 的 解释 程度 ， 本 例 中 ，Factorl 主要 解释 的 是 V2、V3、V4、V6、V7 这 5 个 变 
量 的 信息 ,Factor2 主要 解释 的 是 V5 变量 的 信息 。Uniqueness 列表 示 变 量 未 被 提取 的 前 两 个 主 
因子 解释 的 部 分 ， 可 以 发 现在 舍弃 其 他 主因 子 的 情况 下 ， 信 息 的 损失 量 是 很 小 的 。 

图 8.20 展示 的 是 对 因子 结构 进行 旋转 的 结果 。 此 处 我 们 依然 采用 系统 默认 的 最 大 方差 正 
交 旋 转 方式 对 因子 结构 进行 旋转 。 


. rotate 
Factor analysis/correlation Number of obs = 9 
Nethod: principal factors Retained factors = 4 
Rotation: orthogonal varimax (Kaiser off) Nunber of params = 15 


Bevare: solution is a Heywood case 
(i.e., invalid or boundary values of uniqueness) 


Factor Variance ”Difference Proportion Cunulative 
Factorl 4.38597 3.45823 0.7655 0.7655 
Factor2 0.92775 0.54441 0.1619 0.9275 
Factor3 0.38333 0.34636 0.0669 0.9944 
Factor4 0.03697 > 0.0065 1.0008 


LR teat: independent va. saturated: chi2(15) = 100.47 Prob>chi2 = 0.0000 


Rotated factor loadings (pattern matrix) and unique variances 


Variable | Faccorl Factor2 Factor3 Factor4 Uniqueness 
ve 0.7619 0.3130 0.5302 0.0089 0.0403 
v3 0.9791 0.0118 0.2049 0.0044 -0.0007 
Va 0.9797 -0.1474 0.0683 -0.0967 0.0044 
V5 | -0.0807 0.8874 0.0725 0.0074 0.2007 
V6 0.9807 -0.1293 0.1444 -0.0231 0.0001 
wm 0.9586 0.0609 0.1715 0.1641 0.0211 


Factor roration matrix 


Factorl Factor2 Factor3 Factor4 


Facrorl | 0.9744 0.0041 0.2243 0.0120 
Factor2 | -0.0613 0.9664 0.2465 0.0404 
Factor3 | 0.2161 0.2556 -0.9414 -0.0407 
Facror4 | 0.0004 0.0287 0.0511 -0.9983 


8.20 分 析 结果 图 


图 8.20 包括 3 部 分 内 容 ， 第 1 部 分 说 明 的 是 因子 旋转 模型 的 一 般 情况 ， 从 图 中 我 们 可 以 

看 出 共有 9 个 样本 (Number of obs = 9) 参 与 了 分 析 , 提取 保留 的 因子 共有 4 个 (Retained factors 
= 4) ， 模 型 LR 检验 的 卡 方 值 (LR test: independent vs. saturated: chi2(15)) 为 100.47，P 值 
(Prob>chi2) 为 0.0000， 模 型 非常 显著 。 最 左 列 (Factor) 说 明 的 是 因子 名 称 ， 可 以 看 出 模型 
旋转 后 共 提取 了 4 个 因子 。Proportion 列表 示 的 是 提取 因子 的 方差 贡献 率 ， 其 中 第 1 个 因子 的 
方差 贡献 率 为 76.55%， 第 2 个 因子 的 方差 贡献 率 为 16.19%。Cumulative 列表 示 的 是 提取 因子 
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的 累计 方差 贡献 率 ， 其 中 前 两 个 因子 的 累计 方差 贡献 率 为 92.75%。 

图 8.20 的 第 2 部 分 说 明 的 是 模型 的 因子 载荷 矩阵 以 及 变量 的 未 被 解释 部 分 。 其 中 , Variable 
列表 示 的 是 变量 名 称 ，Factor1、Factor2 两 列 分 别 说 明 的 是 旋转 提取 的 两 个 主因 子 对 各 个 变量 
的 解释 程度 ， 本 例 中 ，Factorl 主要 解释 的 是 V2、V3、V4、V6、V7 这 5 个 变量 的 信息 ,Factor2 
主要 解释 的 是 V5 变量 的 信息 。Uniqueness 列表 示 变 量 未 被 提取 的 前 两 个 主因 子 解释 的 部 分 ， 
可 以 发 现在 舍弃 其 他 主因 子 的 情况 下 ， 信 息 的 损失 量 是 很 小 的 。 

图 8.20 的 第 3 部 分 展示 的 是 因子 旋转 矩阵 的 一 般 情 况 ， 提 取 的 4 个 因子 相关 关系 很 弱 。 

图 8.21 展示 的 是 因子 旋转 后 的 因子 载荷 图 。 此 处 我 们 通过 Factor 选项 控制 了 因子 的 数目 ， 
本 因子 载荷 图 可 以 使 用 户 更 加 直观 地 看 出 各 个 变量 被 前 两 个 因子 解释 的 情况 。 


Factor loadings 


图 8.21 旋转 后 的 因子 载荷 图 


与 前 面 的 分 析 相 同 ， 我 们 发 现 V2、V3、V4、V6、V7 这 5 个 变量 的 信息 主要 被 Factorl 
这 一 因子 所 解释 ，V5 变量 主要 被 Factor2 这 一 因子 所 解释 。 
图 8.22 展示 的 是 因子 分 析 后 各 个 样本 的 因子 得 分 情况 。 


~ predint £1 £2 £3 £4 
(regr ing aaat 


Factora Factor3 Factor4 


-0.36964 -0.86144 1.16737 -1.08005 
1.54910 10.02019 0.70491 1.65788 


0.55537 1.87638 -4.08809 -5.09758 
0.04255 0.03024 -0.31572 -0.10529 
-0.92229 -1.letol 3.99317 2.95399 
O12414 -0.40643 -1.48796 1.70736 


图 8.22 各 个 样本 的 因子 得 分 情况 


根据 图 8.22 展示 的 因子 得 分 系数 矩阵 ， 我 们 可 以 写 出 各 公 因子 的 表达 式 。 值 得 一 提 的 是 ， 
在 表达 式 中 各 个 变量 已 经 不 是 原始 变量 ， 而 是 标准 化 变量 。 
表达 式 如 下 : 


F1=-0.36964* 工 业 总 产值 +1.54910* 国 内 生产 总 值 +0.55537* 货 物 周转 量 +0.04255* 原 煤 
-0.92229* 发 电量 +0.12414* 原 油 


F2=-0.86144* 工 业 总 产值 +10.02019*# 国 内 生产 总 值 +1.87638* 货 物 周转 量 +0.03824* 原 煤 
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-1.let01* 发 电量 -0.40643* 原 油 
F3=1.16737* 工 业 总 产值 +0.70491* 国 内 生产 总 值 -4.08809* 货 物 周转 量 -0.31572* 原 煤 
+3.95317* 发 电量 -1.48796* 原 油 


F4=-1.08005 * 工 业 总 产值 +1.65788* 国 内 生产 总 值 -5.09758* 货 物 周 转 量 -0.18529* 原 煤 
+2.58399* 发 电量 +1.70736* 原 油 


我 们 选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 
以 看 到 如 图 8.23 所 示 的 因子 得 分 数据 。 


加 
.0581507 ~.9417139 
1169193 .0742355 
ecoa -7aoa9e1 -32160872 -3782991 一 
896 Sat70, ls00 -3362068 1.025907 ,1911405 
99595,3 884- iD 28039678。 .3075351 -0733339 .6976990 
337 113732.7 ez 这 or .585361 1,034134 -335167 1363738 
1998 EE Hol0) S755673 T207231 1065623 1,207648 
1999 L611 . 1600) 61585641 .866867 1.473271 ~.3559471 


2000 85673.7 83403,5 16300 1S68681 -1,480272 -1.301687 =2891538 VY lype 
> ER 


Wars 1 Ordor: Dataset Ms 9 Filtar: 0ff edit rdit 上 


图 8.23 ”数据 查看 界面 
这 一 点 也 可 以 通过 命令 形式 实现 ， 如 图 8.24 所 示 。 


list Vi £1 £2 £3 £4 

vi £1 £2 £3 £4 
1. | 1992 -1.443079 .0581607 -.9417189 .2679824 
2. | 1993 -1.272485 -1.169193 -.0742355 .7067811 
3. | 1994 -.7808981 -.2360872 .3783891  -.9217796 
4. | 1995 -.1362868 1.025807 -.1311406 -1.445611 
5. | 1996 .2893678 .9075351 ~-.0733339 .6936998 
6. | 1997 .585381 = 1.034194  -.395167 .1363798 
7. |1998 .5756679 .7267231 1.065623 1.207648 
8. |1999 .6156501  -.866867 1.473271 。 -.3559471 
9. | 2000 1.566681 -1.480272 -1.301687  -.2891538 


图 8.24 通过 命令 形式 实现 
图 8.25 展示 的 是 系统 提取 的 4 个 主因 子 的 相关 系数 矩阵 。 


correlate £1 f2 3 工 4 


lobs=9) 
| £1 £2 £3 £4 
2 1.0000 
£2 -0.0150 1.0000 
£3 0.0576 0.1084 1.0000 
ta | -0.0098 0.0463 0.0960 1.0000 


图 8.25 4 个 主因 子 的 相关 系数 矩阵 


从 图 8.25 中 可 以 看 出 ， 我 们 提取 的 4 个 主因 子 之 间 几 乎 没有 什么 相关 关系 ， 这 也 说 明了 
我 们 在 前 面 对 因 子 进 行 旋 转 的 操作 环节 中 采用 最 大 方差 正 交 旋转 方式 是 明智 的 。 
图 8.26 展示 的 是 每 个 样本 的 因子 得 分 示意 图 。 
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8.26 ”因子 得 分 示意 图 


从 图 8.26 中 可 以 看 出 ， 所 有 的 样本 被 分 到 4 个 象限 ， 其 中 第 1 象限 包括 1996 年 、1997 
年 、1998 年 , 这 3 年 的 两 个 因子 得 分 都 比较 高 ; 第 2 象限 包括 1992 年 、1995 年 ， 这 两 年 的 因 
子 2 得 分 较 高 ， 而 因子 1 得 分 较 低 ; 第 3 象限 包括 1993 年 、1994 年 ， 这 两 年 的 两 个 因子 得 分 
都 比较 低 ; 第 4 象限 包括 1999 年 、2000 年 ， 这 两 年 的 因子 1 得 分 较 高 ， 而 因子 2 得 分 较 低 。 

图 8.27 展示 的 是 本 例 因子 分 析 的 KMO 检验 结果 。 


kaiser-Neyer-Olkin measure of sampling adequacy 


8.27 KMO 检验 结果 


KMO 检验 的 结果 与 前 面 是 一 致 的 。 
图 8.28 展示 的 是 本 例 因 子 分 析 所 提取 的 各 个 因子 的 特征 值 碎 石 图 。 


Scree plot of eigenvalues after factor 


Elgenvalues 
2 3 


1 


0 


T T T T 
1 2 3 4 5 6 
Number 


8.28 各 个 因子 的 特征 值 碎 石 图 
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从 图 8.28 中 可 以 轻松 地 看 出 本 例 中 只 有 第 1 个 因子 的 特征 值 是 明显 大 于 1 的 ， 第 2 个 因 

子 的 特征 值 是 接近 于 1 的 。 

3. 和 迭代 公 因 子 方差 的 主因 子 法 

分 析 结 果 如 图 8.29~ 图 8.38 所 示 。 其 中 ， 图 8.29 展示 的 是 因子 分 析 的 基本 情况 。 


. factor V2-V7,ipf 


(obs=9) 
Factor analysis/correlation Number of obs = 9 
Nethod: iterated principal factors Retained factors = 5 


Rotation: (unrotared) Number of parama = 15 


Beware: solution is a Heyvood case 
{i.e., invalid or boundary values of uniqueness) 


Factor Eigenvalue Difference Proportion Cusulative 
Factorl 4.61243 3.62601 0.8035 0.8035 
Factorz 0.98641 0.88262 0.1718 0.9753 
Factor3 0.10380 0.06761 0.0181 0.9934 
Factor4 0.03619 0.03449 0.0063 0.9997 
Factors 0.00169 0.00184 0.0003 1.0000 
Factor6 -0.00015 有 -0.0000 1.0000 


LR teat: independent vs. saturated: chi2(15) = 100.47 Prob>chi2 = 0.0000 


Factor loadings (pattern matrix) and unique variances 


Variable | Factorl Factor2 Factor3 Factor4 Factor5 Uniqueness 
V2 0.8626 0.3872 -0.2551 0.0297 0.0028 0.0401 
v3 1.0006 0.0024 0.0211 0.0053 -0.0290 -0.0026 
Va 0.9687 -0.1900 0.1160 0.0995 -0.0038 0.0022 
V5 | -0.0587 0.8805 0.1417 0.0215 0.0028 0.2007 
vs 0.9876 -0,1505 0.0437 0.0260 0.0286 -0.0014 
V7 0.9747 0.0493 0.0530 -0.1557 0.0023 0.0205 


图 8.29 因子 分 析 的 基本 情况 


图 8.29 的 上 半 部 分 说 明 的 是 因子 分 析 模型 的 一 般 情 况 ， 从 图 中 我 们 可 以 看 出 共有 9 个 样 
本 (Number ofobs =9) 参与 了 分 析 ， 提 取保 留 的 因子 共有 5 个 〈Retained factors = 5) ， 模 型 
LR 检验 的 卡 方 值 (LR test: independent vs. saturated: chi2(15)) 为 100.47，P 值 (Prob>chi2) 
为 0.0000， 模 型 非常 显著 。 图 8.29 的 上 半 部 分 最 左 列 (Factor) 说 明 的 是 因子 名 称 ， 可 以 看 出 
模型 共 提取 了 6 个 因子 。Eigenvalue 列表 示 的 是 提取 因子 的 特征 值 情况 ， 只 有 第 1 个 因子 的 特 
征 值 是 大 于 1 的 ， 其 中 第 1 个 因子 的 特征 值 是 4.61243， 第 2 个 因子 的 特征 值 是 0.98641。 
Proportion 列表 示 的 是 提取 因子 的 方差 贡献 率 ， 其 中 第 1 个 因子 的 方差 贡献 率 为 80.35%， 第 2 
个 因子 的 方差 贡献 率 为 17.18%。Cumulative 列表 示 的 是 提取 因子 的 累计 方差 贡献 率 ， 其 中 前 
两 个 因子 的 累计 方差 贡献 率 为 97.53%。 

图 8.29 的 下 半 部 分 说 明 的 是 模型 的 因子 载荷 矩阵 以 及 变量 的 未 被 解释 部 分 .其 中 , Variable 
列表 示 的 是 变量 名 称 ，Factor1、Factor2、Factor3 、Factor4、Factors 这 5 列 分 别 说 明 的 是 提取 
的 5 个 主因 子 对 各 个 变量 的 解释 程度 ， 本 例 中 ，Factorl 主要 解释 的 是 V2、V3、V4、V6、V7 
这 5 个 变量 的 信息 , Factor2 主要 解释 的 是 V5 变量 的 信息 。Uniqueness 列表 示 变 量 未 被 提取 的 
前 两 个 主因 子 解释 的 部 分 ， 可 以 发 现在 舍弃 其 他 主因 子 的 情况 下 ， 信 息 的 损失 量 是 很 小 的 。 

图 8.30 展示 的 是 对 因子 结构 进行 旋转 的 结果 。 此 处 我 们 依然 采用 系统 默认 的 最 大 方差 正 
交 旋 转 方式 对 因子 结构 进行 旋转 。 
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Nethod: iterated principal factors Retained factars = 5 
Rotation: orthogonal varimax (Kaiser off) Number of params = 15 


Bevare: solution is a Heyvood case 
li.e., invalid or boundary values of uniqueness) 


Factor Variance Difference Proportion Cumulative 
Factorl 4.38428 3.45713 0.7638 0.7638 
Factorz 0.92715 0.53849 0.1615 0.9253 
Factor3 0.38866 0.34998 0.0677 0.9930 
Factorg 0.03868 0.03694 0.0067 0.9997 
Factors 0.00174 : 0.0003 1.0000 


LR test: independent va, saturared: chi2(15) = 100.47 Prob>chi2 = 0.0000 


Porated factor loadings (pattern matrix) and unique variances 


Variable | Factorl Factor2 Factor3 Factor4 Factor5 Uniqueness 
ve 0.7604 0.3126 0.5328 0.0094 -0.0004 0.0401 
v3 0.9791 0.0119 0.2073 0.0059 0.0289 -0.0026 
va 0.9806 -0.1468 0.0686 -0.1004 0.0000 0.0022 
V5 | -0.0812 0.8873 0.0732 0.0076 -0.0011 0.2007 
ve 0.9807 -0.1292 0.1466 -0.0210 -0.0301 -0.0014 
V7 0.9579 ”0.0610 0.1739 0.1673 0.0015 0.0205 


[Factor rocation matrix 


Factorl Tacror2 Factor3 Factor4 Faccor5 


Factorl | 0.9740 0.0042 0.2262 0.0127 0.0000 
Facror2 | -0.0623 0.9658 0.2481 0.0413 0.0055 
Factor3 | 0,2179 0.2576 -0.9402 -0.0471 -0,0036 
Factor4 | -0.0005 0.0280 0.0576 -0.9977 -0.0234 
Factors | -0.0011 0.0038 0.0034 0.0237 -0.9997 


图 8.30 对 因子 结构 进行 旋转 


图 8.30 包括 3 部 分 内 容 ， 第 1 部 分 说 明 的 是 因子 旋转 模型 的 一 般 情 况 ， 从 图 中 我 们 可 以 
看 出 共有 9 个 样本 (Number of obs = 9) 参 与 了 分 析 , 提取 保留 的 因子 共有 5 个 (Retained factors 
= 5) ， 模 型 LR 检验 的 卡 方 值 (LR test: independent vs. saturated: chi2(15)) 为 100.47，P 值 

(Prob>chi2 ) 为 0.0000， 模 型 非常 显著 。 最 左 列 (Factor) 说 明 的 是 因子 名 称 ， 可 以 看 出 模型 
旋转 后 共 提 取 了 5 个 因子 。Proportion 列表 示 的 是 提取 因子 的 方差 贡献 率 ， 其 中 第 1 个 因子 的 
方差 贡献 率 为 76.38%， 第 2 个 因子 的 方差 贡献 率 为 16.15%。Cumulative 列表 示 的 是 提取 因子 
的 累计 方差 贡献 率 ， 其 中 前 两 个 因子 的 累计 方差 贡献 率 为 92.53%。 

图 8.30 的 第 2 部 分 说 明 的 是 模型 的 因子 载荷 矩阵 以 及 变量 的 未 被 解释 部 分 .其 中 , Variable 
列表 示 的 是 变量 名 称 ，Factor1、Factor2 两 列 分 别 说 明 的 是 旋转 提取 的 两 个 主因 子 对 各 个 变量 
的 解释 程度 ， 本 例 中 ，Factorl 主要 解释 的 是 V2、V3、V4、V6、V7 这 5 个 变量 的 信息 ，Factor2 
主要 解释 的 是 V5 变量 的 信息 。Uniqueness 列表 示 变 量 未 被 提取 的 前 两 个 主因 子 解 释 的 部 分 ， 
可 以 发 现在 舍弃 其 他 主因 子 的 情况 下 ， 信 息 的 损失 量 是 很 小 的 。 

图 8.30 的 第 3 部 分 展示 的 是 因子 旋转 矩阵 的 一 般 情况 ， 提 取 的 5 个 因子 相关 关系 很 弱 。 

图 8.31 展示 的 是 因子 旋转 后 的 因子 载荷 图 。 此 处 我 们 通过 Factor 选项 控制 了 因子 的 数目 ， 
本 因子 载荷 图 可 以 使 用 户 更 加 直观 地 看 出 各 个 变量 被 前 两 个 因子 解释 的 情况 。 
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Factor loadings 


图 8.31 旋转 后 的 因子 载荷 图 


与 前 面 的 分 析 相 同 ， 我 们 发 现 V2、V3、V4、V6、V7 这 5 个 变量 的 信息 主要 被 Factorl 
这 一 因子 所 解释 ，V5 变量 主要 被 Factor2 这 一 因子 所 解释 。 
图 8.32 展示 的 是 因子 分 析 后 各 个 样本 的 因子 得 分 情况 。 


.predict £1 £2 £3 £4 £5 
(regression scoring asswed) 


scoring coefficients (mechod = regression; based on varimax rocaced factors) 


Variable | Factorl Factor2 Factor3 Factor4 Factors 


-0.39572 -0.85513 1.10138 -1.19566 -5.07934 
1,77032 10.03571 0,93258 1,58090 42.31499 
0.61805 1.96072 -4.40549 -6.06184 2.58152 
0.02908 0.03244 -0.30787 -0.11809 -2.66822 

-1.16279 -1l.le+01 4.19422 3.90009 -3.7e+01 
0.10074 -0.38844 -1.58820 1.52105 -4.53620 


图 8.32 各 个 样本 的 因子 得 分 情况 
根据 图 8.32 展示 的 因子 得 分 系数 和 矩阵， 我 们 可 以 写 出 各 公 因 子 的 表达 式 。 值 得 一 提 的 是 ， 
在 表达 式 中 各 个 变量 已 经 不 是 原始 变量 ， 而 是 标准 化 变量 。 

表达 式 如 下 : 

F1=-0.39572* 工 业 总 产值 +1.77032* 国 内 生产 总 值 + 0.61805* 货 物 周转 量 +0.02908* 原 煤 
-1.16279* 发 电量 +0.10074* 原 油 

F2=-0.85513* 工 业 总 产值 +10.03571* 国 内 生产 总 值 +1.96072 * 货 物 周转 量 +0.03244* 原 煤 
-1.1e+01* 发 电量 -0.38844* 原 油 

F3=1.10138* 工 业 总 产值 +0.93258* 国 内 生产 总 值 -4.40549* 货 物 周 转 量 -0.30787* 原 煤 
+4.19422* 发 电量 -1.58820* 原 油 


F4=-1.19566 * 工 业 总 产值 +1.58090* 国 内 生产 总 值 -6.06184* 货 物 周 转 量 -0.11809* 原 煤 
+3.90009* 发 电量 +1.52105* 原 油 


F5=-5.07934 * 工 业 总 产值 +42.31499* 国 内 生产 总 值 +2.58152* 货 物 周转 量 -2.66822* 原 煤 
-3.7et01* 发 电量 -4.53620* 原 油 
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我 们 选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 
以 看 到 如 图 8.33 所 示 的 因子 得 分 数据 。 


EEF 
-Herenlz 
器 所 加 Ee Ey we ve Ee 让 加 人 A Werles 下 
丫 熙 192 3y066 266381 29218 2 xs 1420 [ze | tees id A 
1 : 1 Sze 34634.4 30510 us as 1 7 ET 加 
引 : 1 e303 3 4 sa eo aaao7ss 7 7 VL 了 
+ 1995 loo.8 50478.1 35730 .6 ac cs 计 e030r2 sese 43.06167 
= 1935 oo5o5 crea4e ct54 1 5 .soaaase 0 
< ao 113732.7 74462.6 263168 2a7 aac aco 量 003287 ~» ome33 -797440 Broyles a 
这 193a 119048 78345 39046 2.5 070 61c0 77200585 e217 日 Yecisbles | 
s 1999 126n1 067 4096 10.5 129 e000 DD 0 a Ee 
3 zo00 30737 so403.5 444 0 SS ee 
- | em oe 


EE 


Yes 2 Odo: Daivset Obs 9 Tilter Off Node, Talt CN WAN 


图 8.33 数据 查看 界面 
这 一 点 也 可 以 通过 命令 形式 实现 ， 如 图 8.34 所 示 。 


.list VI £1 £2 £3 £4 £5 


MA £1 £2 £3 £4 £5 
1. | 1992 -1.427691 .0664599 -.9624259 .1830451 2.365919 
2. | 1993 -1.29143 -1.177428 -.0627082 .7970472 -2.661722 
3. | 1994 -.7838829 -.2400735 .3855194  -.8939711  -.8178126 
4，| 1995 -~.123623 1.030422 -.1423163 -1.50698 1.061674 
5. |1996 .2832312 .9013298 -.0484685 .7751203 一 .4748417 
5. | 1997 .5836045 1.043757 -.4360728 .0325833 。 -.7971101 
7. | 1998 .57557 .7200586 1.10393 1.286241 。 1.739962 
8. | 1999 .610529  -.8662681 1.464436 -.3873031  -.3894081 
9. | 2000 1.573692 -1.478257 -1.301894  -.2857831  -.0266602 


图 8.34 通过 命令 形式 实现 
图 8.35 展示 的 是 系统 提取 的 5 个 主因 子 的 相关 系数 矩阵 。 


correlate £1 £2 £3 £4 £5 
(oba=9) 


1.0000 
-0.0517 1.0000 


图 8.35 5 个 主因 子 的 相关 系统 矩阵 


从 图 8.35 中 可 以 看 出 ， 我 们 提取 的 5 个 主因 子 之 间 几 乎 没有 什么 相关 关系 ， 这 也 说 明了 
我 们 在 前 面 对 因 子 进 行 旋转 的 操作 环节 中 采用 最 大 方差 正 交 旋 转 方式 是 明智 的 。 
图 8.36 展示 的 是 每 个 样本 的 因子 得 分 示意 图 。 
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图 8.36 每 个 样本 的 因子 得 分 示意 图 
从 图 8.36 中 可 以 看 出 ， 所 有 的 样本 被 分 到 4 个 象限 ， 其 中 第 1 象限 包括 1996 年 、1997 
年 、1998 年 , 这 3 年 的 两 个 因子 得 分 都 比较 高 ; 第 2 象限 包括 1992 年 、1995 年 ， 这 两 年 的 因 
子 2 得 分 较 高 ， 而 因子 1 得 分 较 低 ; 第 3 象限 包括 1993 年 、1994 年 ， 这 两 年 的 两 个 因子 得 分 


都 比较 低 ; 第 4 象限 包括 1999 年 、2000 年 ， 这 两 年 的 因子 1 得 分 较 高 ， 而 因子 2 得 分 较 低 。 
图 8.37 展示 的 是 本 例 因子 分 析 的 KMO 检验 结果 。 


, estat kno 


Kaiser-Meyer-Olkin measure of sampling adequacy 


8.37 KMO 检验 结果 


KMO 检验 的 结果 与 前 面 是 一 致 的 。 
图 8.38 展示 的 是 本 例 因 子 分 析 所 提取 的 各 个 因子 的 特征 值 碎 石 图 。 


Scree plot of eigenvalues after factor 


8.38 ”特征 值 碎 石 
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从 图 8.38 中 可 以 轻松 地 看 出 本 例 中 只 有 第 1 个 因子 的 特征 值 是 明显 大 于 1 的 ， 第 2 个 因 
子 的 特征 值 是 接近 于 1 的 。 


4. 最 大 似 然 因子 法 
分 析 结 果 如 图 8.39~ 图 8.48 所 示 。 其 中 ， 图 8.39 展示 的 是 因子 分 析 的 基本 情况 。 


. factor V2-V7 ,mL 


(obs=9) 

number of factors adjusted to 3 

Iteration 0; log likelihood = -6.3920856 

Iteration 1: log likelihood = -5.0891108 

Iteration 2: log likelihood = -3.7565363 

Iteration 3; log likelihood = -3.4725944 

Iteration 4: log likelihood = -3.4269988 

Factor analysis/correlation Nuiber of obs = 9 
Method: maximum likelihood Retained factors = 可 
Rotation: (unrotated) Number of params = 15 

Schwarz's BIC = 39.8124 

Log likelihood = -3.426999 (Akaike's) AIC = 36.854 


Beware: solution ia a Heywood case 
(te invalid or boundary values of uniqueness) 


Factor Eigenvalue Difference Proportion Cumulative 
Factorl 4.57829 3.61383 0.8107 0.8107 
Facrorz 0.96446 0.85954 0.1708 0.9814 
Factor3 0.10491 0.0186 1.0000 


LR test: independent vs. saturated: chi2(15) = 100.47 Prob>chi2 = 0.0000 
(che model with 3 factors is saturated) 


Factor loadings (pattern matrix) and unique variances 


Variable | Factorl Factor2 Factor3 Uniqueness 
ve 0.8158 。 0.4779 -0.1912 0.0695 
v3 0.9958 0.0902 -0.0171 0.0000 
va 0.9870 -0.1258 -0.0285 0.0092 
V5 | -9.1314 0.8212 -0.1862 0.2737 
ve 0.9980 -0.0630 。 0.0042 0.0000 
0.9662 0.1838 。 0.1805 0.0000 


图 8.39 因子 分 析 的 基本 情况 


该 检验 有 助 于 确定 合适 的 因子 数目 。 图 8.39 的 第 1 部 分 说 明 的 是 因子 分 析 经 过 迭代 计算 
后 在 第 4 次 (Iteration 4: log likelihood = -3.4269988) 达到 饱和 ， 此 时 系统 提取 的 主因 子 个 数 是 
站 a 

从 图 8.39 的 第 2 部 分 我 们 可 以 看 出 共有 9 个 样本 (Number of obs= 9) 参与 了 分 析 ，BIC 
信息 准则 值 为 39.8124, AIC 信息 准则 值 为 36.854, 模型 LR 检验 的 卡 方 值 (LR test: independent 
Vs. saturated: chi2(15)) 为 100.47，P 值 (Prob>chi2) 为 0.0000， 模 型 非常 显著 。 图 8.39 的 第 2 
部 分 最 左 列 〈Factor) 说 明 的 是 因子 名 称 。Eigenvalue 列表 示 的 是 提取 因子 的 特征 值 情况 ， 只 
有 第 1 个 因子 的 特征 值 是 大 于 1 的 ， 其 中 第 1 个 因子 的 特征 值 是 4.57829， 第 2 个 因子 的 特征 
值 是 0.96446。Proportion 列表 示 的 是 提取 因子 的 方差 贡献 率 ， 其 中 第 1 个 因子 的 方差 贡献 率 
为 81.07%， 第 2 个 因子 的 方差 贡献 率 为 17.08%。Cumulative 列表 示 的 是 提取 因子 的 累计 方差 
贡献 率 ， 其 中 前 两 个 因子 的 累计 方差 贡献 率 为 98.14%。 

图 8.39 的 下 半 部 分 说 明 的 是 模型 的 因子 载荷 矩阵 以 及 变量 的 未 被 解释 部 分 .其 中 , Variable 
列表 示 的 是 变量 名 称 ，Factor1 、Factor2、Factor3 这 3 列 分 别 说 明 的 是 提取 的 3 个 主因 子 对 各 
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Factor2 主要 解释 的 是 V5 变量 的 信息 .Uniqueness 列表 示 变 量 未 被 提取 的 前 两 个 主因 子 解释 的 
部 分 ， 可 以 发 现在 舍弃 其 他 主因 子 的 情况 下 ， 信 息 的 损失 量 是 很 小 的 。 

图 8.40 展示 的 是 对 因子 结构 进行 旋转 的 结果 。 此 处 我 们 依然 采用 系统 默认 的 最 大 方差 正 
交 旋转 方式 对 因子 结构 进行 旋转 。 


.rotate 
Fa 9 
3 
thogonal varimax (Kaiser off) 15 
39.8124 
Log likelihood = -3.426999 36.854 


Beware: solution is a Heywood case 
li.e., invalid or boundary values of uniqueness) 


Factor Variance Difference Propcrtion Cumulative 
4.60517 3.61966 0.8154 0.8154 
0.98550 0.92851 0.1745 0.9899 
0.05599 0.0101 1.0000 


LR test: independent va. saturated: chi2(15) = 100.47 Prob>chiz = 0.0000 
(the model with 3 fa curated) 


[Rovated £actor loadings (patcern matrix) and unique variences 


Variable | Factorl Factor2 Factor3 Uniqveness 
ve 0.8380 0.4659 0.1060 0.0695 
ma 0.9986 0.0391 。 0.0350 0.0000 
Va 0.9765 -0.1673 0.0964 0.0092 
V5 | -0.0863 0.8477 -0.0169 0.2737 
Ve | 0.9921 -0.1146 0.0503 0.0000 
Im | 0.9800 0.0849 -0.1800 0.0000 


[Factor rocarion matrix 


Factor1 Factor2 Factor: 3 


Factorl | 0.9978 -0.0526 0.0397 
actor2 | 0.0605 0.9702 -0.2345 
actor3 | 0.0262 -0.2364 -0.9713 


图 8.40 对 因子 结构 进行 旋转 


图 8.40 包括 3 部 分 内 容 ， 第 1 部 分 说 明 的 是 因子 旋转 模型 的 一 般 情 况 ， 从 图 中 我 们 可 以 
看 出 共有 9 个 样本 (Number of obs = 9) 参 与 了 分 析 , 提取 保留 的 因子 共有 3 个 (Retained factors 
= 3) ， 模 型 LR 检验 的 卡 方 值 (LR test: independent vs. saturated: chi2(15)) 为 100.47，P 值 
(Prob>chi2) 为 0.0000， 模 型 非常 显著 。 最 左 列 (Factor) 说 明 的 是 因子 名 称 ， 可 以 看 出 模型 
旋转 后 共 提 取 了 3 个 因子 。Proportion 列表 示 的 是 提取 因子 的 方差 贡献 率 ， 其 中 第 1 个 因子 的 
方差 贡献 率 为 81.54%， 第 2 个 因子 的 方差 贡献 率 为 17.45%。Cumulative 列表 示 的 是 提取 因子 
的 累计 方差 贡献 率 ， 其 中 前 两 个 因子 的 累计 方差 贡献 率 为 98.99%。 
图 8.40 的 第 2 部 分 说 明 的 是 模型 的 因子 载荷 矩阵 以 及 变量 的 未 被 解释 部 分 ,其 中 ,Variable 
列表 示 的 是 变量 名 称 ，Factor1、Factor 2、Factor3 这 3 列 分 别 说 明 的 是 旋转 提取 的 3 个 主因 子 
对 各 个 变量 的 解释 程度 ， 本 例 中 ，Factorl 主要 解释 的 是 V2、V3、V4、V6、V7 这 5 个 变量 的 
信息 ,Factor2 主要 解释 的 是 V5 变量 的 信息 。Uniqueness 列表 示 变 量 未 被 提取 的 前 两 个 主因 子 
解释 的 部 分 ， 可 以 发 现在 舍弃 其 他 主因 子 的 情况 下 ， 信 息 的 损失 量 是 很 小 的 。 
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图 8.40 的 第 3 部 分 展示 的 是 因子 旋转 矩阵 的 一 般 情 况 ， 提 取 的 3 个 因子 相关 关系 很 弱 。 
图 8.41 展示 的 因子 旋转 后 的 因子 载荷 图 。 此 处 我 们 通过 Factor 选项 控制 了 因子 的 数目 ， 
本 因子 载荷 图 可 以 使 用 户 更 加 直观 地 看 出 各 个 变量 被 前 两 个 因子 的 解释 情况 。 


Factor loadings 


Rotation ofhogonal varmax 
Method: maximum likelihood 


图 8.41 旋转 后 的 因子 载荷 图 


与 前 面 的 分 析 相 同 ，V2、V3、V4、V6、V7 这 5 个 变量 的 信息 主要 被 Factorl 这 一 因子 所 
解释 ，V5 变量 主要 被 Factor2 这 一 因子 所 解释 。 
图 8.42 展示 的 是 因子 分 析 后 各 个 样本 的 因子 得 分 情况 。 


+ predict £1 £2 £3 
(regression scoring assumed) 


coetficients (method = regression; based on varimax rotated factors) 


Factorl Factor2 Factor3 


‘0.00001 0.00001 0.00001 
0.50900 7.09107 6.11430 
0.00002 -0.00000 0.00002 
9.00000 0.00000 0.00000 
0.31163 -6.66082 -1.44353 
0.18623 -0.48252 -4.76910 


8.42 ”各 个 样本 的 因子 得 分 情况 


根据 图 8.42 展示 的 因子 得 分 系数 矩阵 ， 可 以 写 出 各 公 因 子 的 表达 式 。 值 得 一 提 的 是 ， 在 
表达 式 中 各 个 变量 已 经 不 是 原始 变量 ， 而 是 标准 化 变量 。 
表达 式 如 下 : 
F1=0.00001* 工 业 总 产值 +0.50900* 国 内 生产 总 值 + 0.00002* 货 物 周转 量 +0.00000* 原 煤 
+0.31163* 发 电量 +0.18623* 原 油 


F2=0.00001* 工 业 总 产值 +7.09107* 国 内 生产 总 值 -0.00000* 货 物 周 转 量 +0.00000* 原 煤 
-6.66082* 发 电量 -0.48252* 原 油 

F3=0.00001* 工 业 总 产值 +6.11430* 国 内 生产 总 值 +0.00002* 货 物 周 转 量 +0.00000* 原 煤 
-1.44353* 发 电量 -4.76910* 原 油 


选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 8.43 所 示 的 因子 得 分 数据 。 
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图 8.43 数据 查看 界面 
这 一 点 也 可 以 通过 命令 形式 实现 ， 如 图 8.44 所 示 。 
图 8.45 展示 的 是 系统 提取 的 3 个 主因 子 的 相关 系数 矩阵 。 
从 图 8.45 中 可 以 看 出 ， 提 取 的 3 个 主因 子 之 间 几 乎 没有 什么 相关 关系 ， 这 也 说 明了 在 前 


面 对 因 子 进行 旋转 的 操作 环节 中 采用 最 大 方差 正 交 旋转 方式 是 明智 的 。 
list Vl f1 £2 £3 
v1 £1 £2 £3 
1, 1992 -1.582897 -.3236085 ~.59916 
2. | 1993 -1.187182 -.8717405  -.8685705 
3. | 1994 -.7437382 -.0585105 1.349806 te 
4. | 1995 .2520177 .7492394 1.669909 
5. 1996 “2529336 .8183254 -.568837 
6. 1997 “5717562 .8698602 -1.160389 ee 
| ne dt nee Lan 
9 | 2000 。 ia32t781 2 012149 .0221375 ne no 
图 8.44 通过 命令 形式 实现 图 8.45 3 个 主因 子 的 相关 系统 矩阵 
图 8.46 展示 的 是 每 个 样本 的 因子 得 分 示意 图 。 
Score variables (facton) 


Rotaon onhogonal vanmax 
Mormod markaihood 


图 8.46 每 个 样本 的 因子 得 分 示意 图 


从 图 8.46 中 可 以 看 出 ， 所 有 的 样本 被 分 到 4 个 象限 ， 其 中 第 1 象限 包括 1996 年 、1997 
年 、1998 年 ， 这 3 年 的 两 个 因子 得 分 都 比较 高 ; 第 2 象限 包括 1995 年 ， 这 一 年 的 因子 2 得 分 
较 高 ， 而 因子 1 得 分 较 低 ; 第 3 象限 包括 1992 年 、1993 年 、1994 年 ， 这 3 年 的 两 个 因子 得 分 
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图 8.47 展示 的 是 本 例 因子 分 析 的 KMO 检验 结果 。 
KMO 检验 的 结果 与 前 面 是 一 致 的 。 
图 8.48 展示 的 是 本 例 因 子 分 析 所 提取 的 各 个 因子 的 特征 值 碎 石 图 。 


Scree plot of eigenvalues after factor 


.estat kono 
Kaiser-leyer-Olkin measure of sampling adequacy = 
Variable Jamo §° 


V2 | 0.6237 
v3 | 0.6226 
Va | 0.7886 
V5 | 0.1036 
V6 | 0.6905 
V7 | 0.7357 


Overall | 0.6566 1 2 3 4 5 6 
Number 
图 8.47 KMO 检验 结果 图 8.48 特征 值 碎 石 图 


从 图 8.48 中 可 以 轻松 地 看 出 本 例 中 只 有 第 1 个 因子 的 特征 值 是 明显 大 于 1 的 ， 第 2 个 因 
子 的 特征 值 是 接近 于 1 的 。 


8.2.5 ”案例 延伸 

上 述 的 Stata 命令 比较 简洁 ， 分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 

1. 延伸 1: 只 保留 特征 值 大 于 一 定 值 的 操作 选项 


例如 ， 在 本 节 例子 的 主 成 分 因子 法 操作 中 ， 我 们 只 保留 特征 值 大 于 1 的 因子 ， 操 作 命令 
应 该 相应 地 修改 为 


factor V2-V7,pf mineigen(1) 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 8.49~ 图 8.50 所 示 。 


factor V2-V7,pE mineigen(1) 
(obs=9) 
9 
6 
actor Eigenvalue Difference Froportion Cumulative 
4.61013 3.62397 0.8047 0.8047 
0.90616 og0300 ol72 0.9760 
0.10308 0.06843 0.0180 0.9948 
0.03465 0.03614 0.0060 1.0008 
-0.00149 0.00168 -0.0003 1.0006 
-0.00317 -0.0006 1.0000 
LR test: independent vas. saturated: chi2(15) = 100.47 Prob>=hiz = 0.0000 


图 8.49 分 析 结 果 图 1 
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图 8.50 展示 的 内 容 与 结果 分 析 部 分 所 展示 的 是 一 致 的 。 


Factor loadings (pattern matrix) and unique variances 


Variable | Factorl Uniqueness 
vz 0.8628 0.2556 
3 1.0001 -0.0002 
Va 0.9682 0.0626 
V5 | -0.0587 0.9966 
ve 0.9872 0.0254 
mm 0.9747 0.0499 


图 8.50 分析 结果 图 2 


图 8.50 展示 的 是 仅 保留 特征 值 大 于 1 的 主 成 分 的 结果 ， 本 例 中 只 有 1 个 主 成 分 的 特征 值 
是 大 于 1 的 , 所 以 只 保留 了 1 个 主 成 分 进行 分 析 。Uniqueness 列表 示 变 量 未 被 提取 的 主 成 分 解 
释 的 部 分 ， 例 如 变量 V2 未 被 解释 的 信息 比例 就 是 25.56%。 这 种 信息 丢失 情况 是 我 们 舍弃 其 
他 主 成 分 必然 付出 的 代价 。 

2. 延伸 2: 限定 提取 的 主 成 分 个 数 的 操作 选项 

例如 ， 在 本 节 例子 的 主 成 分 因子 法 操作 中 ， 我 们 只 想 提取 一 个 主 成 分 进行 分 析 ， 那 么 操 
作 命令 应 该 相应 地 修改 为 : 


factor V2-V7,pf components (1) 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 8.51~ 图 8.52 所 示 。 图 8.51 展示 的 
内 容 与 结果 分 析 部 分 所 展示 的 是 一 致 的 。 


，factor V2-V7,pf components(1) 


(obaw9) 


4.61013 3.62397 
0.98616 0.88308 
0.10308 0.06843 
0.03465 0.03614 

-0.00149 0.00168 

-0.00317 


LR test: independent va. saturated: chi2(15) = 


图 8.51 分 析 结 果 图 1 


Factor loadings (pattern matrix) and unique variances 


Variable | Factorl Uniqueness 
ve 0.8628 0.2556 
v3 1.0001 -0.0002 
Va 0.9682 0.0626 
V5 | -0.0587 0.9966 
V6 0.9872 0.0254 
mm 0.9747 0.0499 


8.52 分析 结果 图 2 
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图 8.52 展示 的 是 我 们 只 提取 一 个 主 成 分 进行 分 析 的 结果 ， 该 图 最 后 一 列 (Uniqueness) 同 
样 说 明 的 是 该 变量 未 被 系统 提取 的 一 个 主 成 分 解释 的 信息 比例 , 例如 变量 V2 未 被 解释 的 信息 
比例 就 是 25.56%。 这 种 信息 丢失 情况 同样 也 是 我 们 舍弃 其 他 主 成 分 必然 付出 的 代价 。 


8.3 ”本 章 习 题 


(1) 表 8.3 给 出 了 我 国 历年 国民 经 济 主要 指标 统计 数据 (1996 一 2003 年 ) 。 试 对 这 些 指 
标 进 行 主 成 分 分 析 。 


表 8.3 我 国 历年 国民 经 济 主要 指标 统计 数据 (1996 一 2003 年 ) 


发 电量 
年 份 = 原煤 / 亿 陋 | / 亿 干 瓦 时 原油 /万 吨 
1996 |995953 |678846 |365900 |140 |io8130 |15733.0 
1997 113732.7 16074.0 
1998 119048.0 16100.0 
1999 126111.0 16000.0 
2000 |85673.7 |894420 |443210 |100 |135560 |16300.0 
2001 95449.0 16396.0 
2002 110776.0 16700.0 
2003 1422710 “| 1172519 |s38590 [i167 [i9060 |16960.0 


(2) 对 表 8.3 所 给 出 的 资料 进行 因子 分 析 。 
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第 9 章 Stata 聚 类 分 析 


聚 类 分 析 (Cluster Analysis) 是 研究 事物 分 类 的 基本 方法 ， 基 于 我 们 所 研究 的 指标 或 数据 
之 间 存 在 着 的 不 同 程度 的 相似 性 或 者 相 异 性 。 聚 类 分 析 采 用 定量 数学 方法 , 根据 样品 或 指标 的 
数值 特征 对 样品 进行 分 类 ,从 而 辨别 出 各 样品 之 间 的 亲 足 关系 。 聚 类 分 析 是 一 种 使 用 简单 但 却 
很 常用 的 分 析 方法 ,往往 被 用 来 进行 经 验 性 类 型 的 探索 ,而 不 是 用 来 检验 事先 所 定 的 假设 ,。 聚 
类 分 析 分 成 两 个 宽泛 的 类 别 , 包括 划分 聚 类 分 析 和 层次 聚 类 分 析 。 本章 将 逐一 介绍 这 两 种 聚 类 
分 析 方 法 在 实例 中 的 应 用 。 


9.1 实例 划分 聚 类 分 析 


9.1.1 划分 聚 类 分 析 的 功能 与 意义 


划分 聚 类 分 析 方法 〈Partition) 的 基本 思想 是 将 观测 到 的 样本 划分 到 一 系列 事先 设 定好 的 
不 重合 的 分 组 中 去 。 划 分 聚 类 分 析 方 法 在 计算 上 相 比 层次 聚 类 分 析 方法 要 相对 简单 而 且 计算 速 
度 要 更 快 一 些 , 但 是 它 也 有 自己 的 缺点 , 它 要 求 事先 指定 样本 聚 类 的 精确 数目 , 这 与 聚 类 分 析 
探索 性 的 本 质 是 不 相 适应 的 。 划 分 聚 类 分 析 包 括 两 种 : 一 种 是 K 个 平均 数 的 聚 类 分 析 方法 
(Cluster Kmeans) ， 此 方法 的 操作 流程 是 通过 迁 代 过 程 将 观测 案例 分 配 到 具有 最 接近 的 平均 
数 的 组 ， 然 后 找 出 这 些 聚 类 ; 另 一 种 是 K 个 中 位 数 的 聚 类 分 析 方 法 〈Cluster Kmedians) ， 此 
方法 的 操作 流程 是 通过 迭代 过 程 将 观测 案例 分 配 到 具有 最 接近 的 中 位 数 的 组 ,然后 找 出 这 些 聚 
类 。 下 面 我 们 就 以 实例 的 方式 介绍 一 下 这 两 种 划分 聚 类 分 析 方法 。 


9.1.2 ”相关 数据 来 源 


| riveeochopoo. 


国 | 下载 资源 \samplechap09 案 例 9.1.dta 


【 例 9.1】 表 9.1 是 我 国 2006 年 各 地 区 能 源 消耗 的 情况 。 根 据 不 同 省 市 的 能 源 消耗 情况 ， 
对 其 进行 划分 聚 类 分 析 ， 以 便 了 解 我 国 不 同 地 区 的 能 源 消耗 情况 。 
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\ AAA AAAAN 

NANN 第 9 章 ”Stata 聚 类 分 析 
\\N\ 


AAAA WW 


地 区 单位 地 区 生产 总 值 煤 消 ”| 单位 地 区 生产 总 值 电 消 ”| 单位 工业 增加 值 煤 消耗 
耗 量 / 吨 耗 量 /千瓦 /时 量 / 吨 

北京 0.8 828.5 1.5 

天 津 | 重生 1040.8 | 145 


1487.6 


内 蒙古 


青海 
宁夏 
新 疆 


9.1.3 ”Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 4 个 变量 ， 分 别 是 地 
区 、 单 位 地 区 生产 总 值 煤 消 耗 量 〈 吨 ) 、 单 位 地 区 生产 总 值 电 消耗 量 (千瓦 /时 ) 、 单 位 工业 
增加 值 煤 消耗 量 ( 吨 ) 。 我 们 把 这 些 变量 分 别 定义 为 V1、V2、V3、V4， 变 量 类 型 及 长 度 采 
取 系 统 默认 方式 ， 然 后 录入 相关 数据 。 相 关 操 作 我 们 在 第 1 章 中 已 有 详细 讲述 。 录 入 完成 后 数 
据 如 图 9.1 所 示 。 


ost cotor (Ed TFI 一 zx 一 | 
File Edi View Data Tools 
营 回 吧 对 吃 国 了 


valaol 11909 


NUM | 


图 9.1 案例 9.1 数据 
先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 骤 如 下 : 
进入 Stata 14.0， 打 开 相关 数据 文件 ， 弹 出 主 界面 。 
加 在 主 界面 的 “Command” 文 本 框 中 分 别 输入 如 下 命令 并 按键 盘 上 的 回 车 键 进 行 确认 。 
。 egen zv2=std(V2): 本 命令 旨 在 对 V2 变量 进行 标准 化 处 理 。 
。 egen zv3=std(V3): 本 命令 旨 在 对 V3 变量 进行 标准 化 处 理 。 
。 egen zv4=std(V4): 本 命令 旨 在 对 V4 变量 进 行 标准 化 处 理 。 
e@ Sum zv2 zv3 zv4: 本 命令 旨 在 对 zv2、zv3、zv4 变量 进行 描述 性 统计 分 析 。 
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cluster kmeans zv2 zv3 zv4,k(2): 本 命令 的 含义 是 对 zv2、zv3、zv4 变量 进行 区 个 平均 
数 的 聚 类 分 析 ， 并 把 样本 分 为 2 类 。 

clusterkmeans zv2 zv3 Zzv4,k(3): 本 命令 的 含义 是 对 zv2、zv3、zv4 变量 进行 K 个 平均 
数 的 聚 类 分 析 ， 并 把 样本 分 为 3 类 。 

cluster kmeans zv2 zv3 zv4,k(4): 本 命令 的 含义 是 对 zv2、zv3、zv4 变量 进行 K 个 平均 
数 的 聚 类 分 析 ， 并 把 样本 分 为 4 类 。 

cluster kmedians zv2 zv3 zv4,k(2): 本 命令 的 含义 是 对 zv2、zv3、zv4 变量 进行 KK 个 中 
位 数 的 聚 类 分 析 ， 并 把 样本 分 为 2 类 。 

cluster kmedians zv2 zv3 zv4,k(3): 本 命令 的 含义 是 对 zv2、zv3、zv4 变量 进行 KK 个 中 
位 数 的 聚 类 分 析 ， 并 把 样本 分 为 3 类 。 

cluster kmedians zv2 zv3 zv4,k(4): 本 命令 的 含义 是 对 zv2、zv3、zv4 变量 进行 区 个 中 
位 数 的 聚 类 分 析 ， 并 把 样本 分 为 4 类 。 


辆 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 


在 Stata 14.0 主 界面 的 结果 窗口 我 们 可 以 看 到 如 图 9.2~ 图 9.17 所 示 的 分 析 结 果 。 

1. 数据 标准 化 处 理 

在 分 析 过 程 中 前 3 条 Stata 命令 则 在 对 数据 进行 标准 化 处 理 ， 选 择 的 标准 化 处 理 方式 是 使 
变量 的 平均 数 为 0 而 且 标 准 差 为 1。 之 所 以 这 样 做 是 因为 我 们 进行 聚 类 分 析 的 变量 都 是 以 不 可 
比 的 单位 进行 的 测度 , 它们 具有 极为 不 同 的 方差 , 我 们 对 数据 进行 标准 化 处 理 可 以 避免 使 结果 
受到 具有 最 大 方差 变量 的 影响 。 在 输入 前 3 条 Stata 命令 并 且 分 别 按 键盘 上 的 回 车 键 进行 确认 
后 ， 选 择 “Data”|“Data Editor”| “Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 9.2 所 示 的 变换 后 的 数据 。 

根据 我 们 在 前 面 章节 中 讲述 的 描述 性 统计 分 析 方 法 , 我 们 可 以 看 到 如 图 9.3 所 示 的 标准 化 
变量 的 相应 统计 量 。 
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9.2 ”标准 化 变换 后 的 数据 
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上 生意 RN 


\ AAAAA 


Variable | 


zv2 7.67e-09 1 -1.054376 3.030619 
7.70e-09 1 -.7707154 3.849588 
-5.77e-09 1 -1.281782 3.302876 


图 9.3 ”标准 化 变量 的 相应 统计 量 

通过 观察 分 析 结 果 ， 我 们 可 以 看 出 ， 有 效 观 测 样本 共有 30 个 。zv2 的 平均 值 为 7.67e-09， 
标准 差 是 1， 最 小 值 是 -1.054376， 最 大 值 是 3.030619; zv3 的 平均 值 为 7.70e-09， 标 准 差 是 1， 
最 小 值 是 -0.7707154， 最 大 值 是 3.849588; zv4 的 平均 值 为 -5.77e-09， 标 准 差 是 1， 最 小 值 是 
-1.281782， 最 大 值 是 3.302876。 

2. K 个 平均 数 的 聚 类 分 析 

(1) 设 定 聚 类 数 为 2 

图 9.4 展示 的 是 设 定 聚 类 数 为 2， 然后 使 用 “KK 个 平均 数 的 聚 类 分 析 ” 方 法 进行 分 析 的 结 
果 。 在 输入 第 5 条 Stata 命令 并 且 分 别 按键 盘 上 的 回 车 键 进行 确认 后 ， 我 们 可 以 看 到 系统 产生 
了 一 个 新 的 变量 ， 即 聚 类 变量 clus 1 (cluster name: clus 1) 。 


cluster kmeans zy2 zv3 zy4,k(2) 
cluster name: clus 1 


图 9.4 设 定 聚 类 数 为 2 的 “K 个 平均 数 的 聚 类 分 析 ” 方 法 进行 分 析 的 结果 


选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 9.5 所 示 的 _clus_1 数据 。 


DD Data Editor td - 左 Hqoldal O00 EE x | 
File Edit View Data Tools 
访 回 四 吧 到 回 台 了 . 
1C 2 
加 ~ Variables a 
OD 可 | 是 A Filervariables here 
这 | ame Label 
EE (mv J 
国 一 一 [ave 引 
2 ev 
站 ow 
E ee Bzv2 Standardized val.. ~ 
的 和 节 variables [Snapshot 
昌 Properties 9 
1 B Variables 
了 3 [Name sl re 
24 06 Label 二 
“ 2 ype Ra | 
a Format %8.09 
wn Value label 
~ @lNotes 
2 i 之 
Ready Vars:8 Order:Dataset Obs:30 Filter:Off Mode:Edit CAP NUM 3 


图 9.5 _clus 1 数据 
在 图 9.5 中 ， 我 们 可 以 看 到 所 有 的 观测 样本 被 分 为 两 类 : 其 中 ， 山 西 、 内 蒙古 、 甘 肃 、 青 
海 、 宁 夏 被 分 到 第 1 类 ,其 他 的 省 市 被 分 到 第 2 类 。 我 们 可 以 看 到 第 1 类 的 特征 是 单位 地 区 生 
产 总 值 煤 消耗 量 、 单 位 地 区 生产 总 值 电 消耗 量 以 及 单位 工业 增加 值 煤 消耗 量 都 相对 较 高 。 我 们 
可 以 把 第 1 类 称 为 高 能 耗 省 市 ， 把 第 2 类 称 为 低能 耗 省 市 。 
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(2) 设 定 聚 类 数 为 3 
图 9.6 展示 的 是 设 定 聚 类 数 为 3， 然后 使 用 “K 个 平均 数 的 聚 类 分 析 ” 方 法 进行 分 析 的 结 
果 。 在 输入 第 6 条 Stata 命令 并 且 分 别 按键 盘 上 的 回 车 键 进行 确认 后 ， 我 们 可 以 看 到 系统 产生 
了 一 个 新 的 变量 ， 即 聚 类 变量 clus 2 (clustername: clus 2) 。 


.Cluster kmeans zw2 zw3 zv4,k(3) 


cluster name: clus 2 


图 9.6 设 定 聚 类 数 为 3 的“K 个 平均 数 的 聚 类 分 析 ” 方 法 进行 分 析 的 结果 


选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 9.7 所 示 的 _clus_2 数据 。 


ors Edivor (Ed -Eldol oi [el > 
File Edit View Data Tools 
帮 回 画 避 训 加 村 了. 
1C 这 
= ~ Variables 了 
es ™ Filter variables here 
2 Name Label -| 
引 evi E 
mv2 国 
V3 
v4 
Wz Standardized val ~ 
variables [SrApR| 
Properties 日 
Variables 
Name os 
Label 
Type byte | 
Format %8.0g 
Value label 
ElNotes 
E FB Data 一 
Vars:9 Order: Dataset DObs:30 Filter Off Mode:Edit AP NUM 


9.7 _clus 2 数据 


在 图 9.7 中 ， 我 们 可 以 看 到 所 有 的 观测 样本 被 分 为 3 类 : 其中， 山西、 内 蒙古 、 贵 州 、 甘 
肃 、 青 海 、 宁 夏 被 分 到 第 3 类 ; 北京、 天津 、 上 海 、 江 苏 、 浙 江 、 福 建 、 山 东 、 广 东 被 分 到 第 
2 类 ; 其 他 的 省 市 被 分 到 第 1 类 。 我 们 可 以 看 到 第 3 类 的 特征 是 单位 地 区 生产 总 值 煤 消耗 量 、 
单位 地 区 生产 总 值 电 消耗 量 以 及 单位 工业 增加 值 煤 消 耗 量 都 较 高 ,第 1 类 的 特征 是 单位 地 区 生 
产 总 值 煤 消 耗 量 、 单 位 地 区 生产 总 值 电 消耗 量 以 及 单位 工业 增加 值 煤 消 耗 量 都 处 于 中 间 , 第 2 
类 的 特征 是 单位 地 区 生产 总 值 煤 消耗 量 . 单 位 地 区 生产 总 值 电 消耗 量 以 及 单位 工业 增加 值 煤 消 
耗 量 都 较 低 。 我 们 可 以 把 第 3 类 称 为 高 能 耗 省 市 ， 把 第 1 类 称 为 中 能 耗 省 市 , 把 第 2 类 称 为 低 
能 耗 省 市 。 

(3) 设 定 聚 类 数 为 4 

图 9.8 展示 的 是 设 定 聚 类 数 为 4， 然 后 使 用 “K 个 平均 数 的 聚 类 分 析 ” 方 法 进行 分 析 的 结 
果 。 在 输入 第 7 条 Stata 命令 并 且 分 别 按键 盘 上 的 回 车 键 进行 确认 后 ， 我 们 可 以 看 到 系统 产生 
了 一 个 新 的 变量 ， 即 聚 类 变量 clus 3 (cluster name:_clus 3) 。 


~ Cluster kmeans zy2 zy3 zv4,k(4) 


cluster name: clus 3 


图 9.8 设 定 聚 类 数 为 4 的 “K 个 平均 数 的 聚 类 分 析 ” 方 法 进行 分 析 的 结果 
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[Variables 后 SRS 


Vars 13 Order Dataset Obs:30 ”Fiter Of Mode:Edit ‘AF NUM = 
图 9.9 分 析 结 果 图 


在 图 9.9 中 ， 可 以 看 到 所 有 的 观测 样本 被 分 为 4 类 : 其 中 ， 北 京 、 天 津 、 上 海 、 浙 江 、 福 
建 、 江 苏 、 广 东 、 山 东 为 第 1 类 ， 宁 夏 、 青 海 为 第 2 类 ， 甘 肃 、 山 西 、 贵 州 、 内 蒙古 为 第 3 
类 , 其 他 省 市 为 第 4 类 。 从 图 9.9 中 很 难看 出 各 个 类 别 的 特征 , 我 们 可 以 对 数据 进行 排序 操作 ， 
在 主 界面 的 “Command” 文 本 框 中 输入 操作 命令 : 


并 按键 盘 上 的 回 车 键 进行 确认 ， 然 后 选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 
令 ， 进 入 数据 查看 界面 ， 可 以 看 到 如 图 9.10 所 示 的 整理 后 的 数据 。 


9.10 _clus 3 数据 


从 图 9.10 中 可 以 看 出 ， 第 2 类 的 能 耗 应 该 是 最 高 的 ， 我 们 称 为 高 能 耗 省 市 ， 然 后 是 第 3 
类 ， 能 耗 较 高 ， 我 们 称 为 较 高 能 耗 省 市 ， 青 后 是 第 4 类 ， 能 耗 较 低 ， 我 们 称 为 较 低能 耗 省 市 ; 
第 1 类 的 能 耗 应 该 是 最 低 的 ， 我 们 称 为 低能 耗 省 市 。 
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在 本 节 的 开始 我 们 也 提 到 过 ， 划 分 聚 类 分 析 的 特点 是 需要 事先 制定 拟 分 类 的 数量 。 究 竟 
分 成 多 少 类 是 合理 的 , 这 是 没有 定论 的 。 用户 需要 根据 自己 的 研究 、 需 要 以 及 数据 的 实际 特点 
加 入 自己 的 判断 。 在 上 面 的 分 析 中 ， 我 们 尝试 着 把 这 30 个 样本 分 别 分 为 2、3、4 类 进行 了 研 
究 , 我 们 可 以 看 出 把 数据 分 成 两 类 是 过 于 粗糙 的 ,而 且 两 个 类 别 所 包含 的 样本 数量 差别 也 是 比 
较 大 的 ， 而 把 数据 分 成 3 类 或 者 4 类 都 是 比较 合适 的 。 读 者 可 以 再 把 数据 分 成 5 类 、6 类 或 者 
其 他 数量 的 类 别 进行 研究 ， 观 察 分 类 情况 ， 取 出 自己 认为 是 最 优 的 分 类 。 

3. K 个 中 位 数 的 聚 类 分 析 

(1) 设 定 聚 类 数 为 2 

图 9.11 展示 的 是 设 定 聚 类 数 为 2， 然后 使 用 “K 个 中 位 数 的 聚 类 分 析 ” 方 法 进行 分 析 的 结 


果 。 在 输入 第 8 条 Stata 命令 并 且 分 别 按键 盘 上 的 回 车 键 进行 确认 后 ， 我 们 可 以 看 到 系统 产生 
了 一 个 新 的 变量 ， 即 聚 类 变量 clus 4 (cluster name: _clus 4) 。 


， cluster kmedians zy2 zw3 zwv4,k(2) 


cluster name: _clus 4 


图 9.11 设 定 聚 类 数 为 2 的 “K 个 中 位 数 的 聚 类 分 析 ” 方 法 进行 分 析 的 结果 


选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 9.12 所 示 的 _clus 4 数据。 
口 pete ditor (tdn - 本 ldol SH 人 本 ES 
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二 ev 
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= mv 
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- gv2 Standardized val.. ~ 
sr | 人 variables [Sapshow| 
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| Name lus_4 
Label 
Type byte | 己 
Format %8.0g 


Velue label 
国  lelNotes 
pa 

Vars:13 Order: Dataset Obs:30 Filter: Off Mode: Edit -A 


9.12 _clus 4 数据 


在 图 9.12 中 ， 我 们 可 以 看 到 所 有 的 观测 样本 被 分 为 两 类 : 其 中 ， 北 京 、 天 津 、 上 海 、 江 
苏 、 浙 江 、 广 东 、 山 东 、 福 建 被 分 到 第 1 类 ， 其 他 的 省 市 被 分 到 第 2 类 。 我 们 可 以 看 到 第 2 
类 的 特征 是 单位 地 区 生产 总 值 煤 消耗 量 、 单 位 地 区 生产 总 值 电 消耗 量 以 及 单位 工业 增加 值 煤 消 
耗 量 都 相对 非常 高 。 我 们 可 以 把 第 2 类 称 为 高 能 耗 省 市 ， 把 第 1 类 称 为 低能 耗 省 市 。 

(2) 设 定 聚 类 数 为 3 

图 9.13 展示 的 是 设 定 聚 类 数 为 3， 然 后 使 用 “K 个 中 位 数 的 聚 类 分 析 ”方法 进行 分 析 的 结 
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了 一 个 新 的 变量 ， 即 聚 类 变量 clus 5 (clustername: clus 5) 。 


~ cluster kmedians Zzv2 Zv3 Zzvd,k(3) 
eluster name: clus 5 


、 \ 
\ \ 


选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 9.14 所 示 的 _clus 5 数据 。 
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EL ET Er 
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到 人 a 
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Label 
Type byte 
Format waog 
Value label 
os 
[ TT | oy 间 Dara 
Vars: 13 Order Dataset Obs:30 Fiker of。 Mode:Edit LAF NUM 4 


9.14 _clus 5 数据 


在 图 9.14 中 ， 我 们 可 以 看 到 所 有 的 观测 样本 被 分 为 3 类 : 其中， 浙江、 上海、 福建 、 山 
东 、 北 京 、 天 津 、 广 东 、 江 苏 被 分 到 第 1 类 ， 山 西 、 贵 州 、 内 蒙古 、 甘 肃 、 青 海 、 宁 夏 被 分 到 
第 2 类 , 其 他 的 省 市 被 分 到 第 3 类 。 我 们 可 以 看 到 第 2 类 的 特征 是 单位 地 区 生产 总 值 煤 消耗 量 、 
单位 地 区 生产 总 值 电 消耗 量 以 及 单位 工业 增加 值 煤 消耗 量 都 较 高 ,第 3 类 的 特征 是 单位 地 区 生 
产 总 值 煤 消耗 量 、 单 位 地 区 生产 总 值 电 消 耗 量 以 及 单位 工业 增加 值 煤 消耗 量 都 处 于 中 间 , 第 1 
类 的 特征 是 单位 地 区 生产 总 值 煤 消耗 量 、 单 位 地 区 生产 总 值 电 消耗 量 以 及 单位 工业 增加 值 煤 消 
耗 量 都 较 低 。 我 们 可 以 把 第 2 类 称 为 高 能 耗 省 市 ， 把 第 3 类 称 为 中 能 耗 省 市 , 把 第 1 类 称 为 低 
能 耗 省 市 。 


(3 ) 设 定 聚 类 数 为 4 

图 9.15 展示 的 是 设 定 聚 类 数 为 4， 然 后 使 用 “K 个 中 位 数 的 聚 类 分 析 ” 方 法 进行 分 析 的 结 
果 。 在 输入 第 10 条 Stata 命令 并 且 分 别 按 键盘 上 的 回 车 键 进行 确认 后 , 我 们 可 以 看 到 系统 产生 
了 一 个 新 的 变量 ， 即 聚 类 变量 clus 6 (cluster name: clus 6) 。 


cluster kmedians zyv2 zv3 zva,k(4) 
luster name: clus 6 


图 9.15 ” 设 定 聚 类 数 为 4 的 “K 个 中 位 数 的 聚 类 分 析 ” 方 法 进行 分 析 的 结果 


选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 9.16 所 示 的 _clus_ 6 数据 。 
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Wt WW 


ET 
Fle Edit View Data Took 
蕊 日 沿 名 返回 了 了: 

1 3 


Vars: 13 order Dataset_ abs 30_ Fher: 


图 9.16 _clus 6 数据 


在 图 9.16 中 ， 我 们 可 以 看 到 所 有 的 观测 样本 被 分 为 4 类 : 其 中 ， 甘 肃 、 青 海 、 山 西 、 贵 
州 、 内 蒙古 为 第 1 类 ， 宁 夏 为 第 2 类， 北京、 天津、 山东 、 浙 江 、 上 海 、 福 建 、 江 苏 、 广 东 为 
第 3 类， 河北、 新疆、 辽宁、 云南 为 第 3 类 ， 其 他 省 市 为 第 4 类 。 从 图 9.16 中 很 难看 出 各 个 
类 别 的 特征 ， 我 们 可 以 对 数据 进行 排序 操作 ， 在 主 界面 的 “Command” 文 本 框 中 输入 操作 命 
令 : 


sort _clus_6 


并 按键 盘 上 的 回 车 键 进行 确认 ， 然 后 选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 
令 ， 进 入 数据 查看 界面 ， 可 以 看 到 如 图 9.17 所 示 的 整理 后 的 数据 。 

从 图 9.17 中 可 以 看 出 ， 第 2 类 的 能 耗 应 该 是 最 高 的 ， 我 们 称 为 高 能 耗 省 市 ， 然 后 是 第 1 
类 ， 能 耗 较 高 ， 我 们 称 为 较 高 能 耗 省 市 ， 再 后 是 第 4 类 ， 能 耗 较 低 ， 我 们 称 为 较 低能 耗 省 市 ; 
第 3 类 的 能 耗 应 该 是 最 低 的 ， 我 们 称 为 低能 耗 省 市 。 

可 以 发 现 两 种 划分 聚 类 分 析 方 法 得 出 的 结论 并 不 是 完全 一 致 的 。 关 于 两 种 方法 剖 优 剖 劣 
的 问题 ， 目 前 还 没有 定论 ， 只 是 K 个 平均 数 的 聚 类 分 析 方 法 应 用 更 多 一 些 。 在 实践 过 程 中 ， 
用 户 可 以 根据 研究 的 需要 和 自己 的 偏好 进行 选择 , 当然 也 可 以 同时 将 两 种 方法 结合 在 一 起 进行 
综合 判断 


9.17 排序 后 clus 6 数据 
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上 述 的 Stata 命令 比较 简洁 ， 分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 


1. 延伸 1: 采用 其 他 相 异 性 指标 

在 上 面 的 实例 中 ， 聚 类 分 析 使 用 的 相 异 性 指标 是 系统 的 默认 选项 ， 也 就 是 欧 氏 距离 
(Euclidean Distance) 。 除 此 之 外 ， 还 有 其 他 基于 连续 变量 观测 量 的 相 异 性 指标 可 以 使 用 ,， 包 
括 欧 氏 距离 的 平方 《Squared Euclidean Distance) 、 绝 对 值 距离 (Absolute-Value Distance) 、 
最 大 值 距离 (Maximum-Value Distance)、 相关 系数 相似 性 度量 (Correlation Coefficient Similarity 
Measure) 等 。 例 如 ， 设 定 聚 类 数 为 2， 然 后 使 用 “K 个 平均 数 的 聚 类 分 析 ” 方 法 ， 采 用 欧 氏 
距离 的 平方 这 一 相 异 性 指标 ， 操 作 命令 应 该 相应 地 修改 为 : 


Cluster kmeans zV2 zVv3 zv4,k(2) measure (L2squared) 


在 命令 窗口 中 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 9.18~ 图 9.19 所 示 。 
可 以 看 到 系统 产生 了 一 个 新 的 变量 ， 即 聚 类 变量 clus 1 (cluster name: clus 1) 。 


， 


9.1.5 ”案例 延伸 


. cluster kmeans zv2 zv3 zv4,k(2) measure(L2squared) 


Eluster name: clus 1 


图 9.18 ”延伸 1 分 析 结 果 图 
选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 9.19 所 示 的 _clus_1 数据 。 


口 outdrorttdn = 500 C0 
File Edit View Data Tools 
区 目 吧 四 色 国 和 了: 
IC 2 
- 中 
起 守 Filter variablesh 
= 
回 Name Label 
av 
= mv 
va 国 
va 
Hv2 Standardized val.. 
3 a Pr 
E [varables [Brapahats] 
[properies | 
- Verables 悦 
几 Name cust 
3 Label E 
a Type byte 省 
名 om oaog 
Ee Value label 
Se EB Notes 
i Bom 
Ready Vars:8 Order Dataset Obs:30 Filter:Off Mode:Edit AP NUM 5 


图 9.19 延伸 1 的 _clus_1 数据 
结果 的 解读 方式 与 前 面 类 似 ， 限 于 篇 幅 ， 这 里 不 再 袭 述 。 可 以 发 现 这 两 种 测量 方法 下 的 
聚 类 分 析 结 果 差 别 很 大 。 基 于 连续 变量 观测 量 的 相 异 性 指标 与 对 应 的 Stata 14.0 命令 如 表 9.2 
所 示 。 
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表 9.2 ”基于 连续 变量 观测 量 的 相 异 性 指标 与 对 应 的 Stata 命令 


基于 连续 变量 观测 量 的 相 异 性 指标 对 应 的 Stata 命 令 
欧 氏 距离 (Euclidean Distance) E> 

欧 氏 距离 的 平方 (Squared Euclidean Distance) L2squared 
绝对 值 距离 (Absolute-Value Distance) Ll 
最 大 值 距离 (Maximum-Value Distance) Linfinity 
相关 系数 相似 性 度量 (Correlation Coefficient Similarity Measure ) correlation 


2. 延伸 2: 设置 聚 类 变量 的 名 称 
在 上 面 的 实例 中 ， 聚 类 分 析 产 生 的 聚 类 变量 是 系统 默认 生成 的 ， 例 如 _clus_ 1。 事实 上 ， 


我 们 可 以 个 性 化 地 设置 聚 类 变量 的 名 称 。 
例如 ， 设 定 聚 类 数 为 3， 然 后 使 用 “K 个 平均 数 的 聚 类 分 析 ” 方 法 ， 采 用 绝对 值 距离 的 相 
异性 指标 ， 把 产生 的 聚 类 变量 取 名 为 abs， 那 么 操作 命令 应 该 相应 地 修改 为 : 


Cluster kmeans ZV2 ZzZv3 zv4,k(3) measure (L1) name (abs) 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 然 后 选择 “Data”| “Data Editor”|“Data 
Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 到 如 图 9.20 所 示 的 abs 数据 。 


{Don editor (edi0 - m1.009] 0 == 
【Pie Ed View Data Tools 
| 当日 品名 了 
| 1c 2 
RE | 
A i ore 
BName Label 


图 9.20 延伸 2 分 析 结 果 图 

结果 的 解读 方式 与 前 面 类 似 ， 限 于 篇 幅 ， 这 里 不 再 袭 述 。 

3. 延伸 3: 设置 观测 样本 为 初始 聚 类 中 心 

可 以 根据 拟 聚 类 数 ， 设 置 前 几 个 观测 样本 为 初始 聚 类 中 心 进 行 聚 类 。 

例如 ， 设 定 聚 类 数 为 3， 然后 使 用 “K 个 平均 数 的 聚 类 分 析 ” 方 法 ， 采 用 绝对 值 距离 的 相 
异性 指标 ， 把 产生 的 聚 类 变量 取 名 为 abcd， 设 置 前 几 个 观测 样本 为 初始 聚 类 中 心 进行 聚 类 。 
那么 操作 命令 应 该 相应 地 修改 为 : 

cluster kmeans zV2 ZVv3 ZzZv4,k(3) measure (L1) name (abcd) start (firstk) 

在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 然 后 选择 “Data”| “Data Editor”|“Data 
Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 到 如 图 9.21 所 示 的 abcd 数据 。 


Ready 
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结果 的 解读 方式 与 前 面 类 似 ， 限 于 篇 幅 ， 这 里 不 再 袭 述 。 


图 9.21 延伸 3 分 析 结 果 图 
4. 延伸 4: 排除 作为 初始 聚 类 中 心 的 观测 样本 
在 上 面 的 实例 中 ， 我 们 可 以 根据 拟 聚 类 数 ， 设 置 前 几 个 观测 样本 为 初始 聚 类 中 心 进 行 聚 
类 ， 但 是 在 聚 类 分 析 时 需要 把 作为 初始 聚 类 中 心 的 观测 样本 排除 。 
例如 ， 设 定 聚 类 数 为 3， 然后 使 用 “K 个 平均 数 的 聚 类 分 析 ” 方 法 ， 采 用 绝对 值 距 离 的 相 
异性 指标 ， 把 产生 的 聚 类 变量 取 名 为 abcde， 设 置 前 几 个 观测 样本 为 初始 聚 类 中 心 进行 聚 类 ， 但 
是 在 聚 类 分 析 时 需要 把 作为 初始 聚 类 中 心 的 观测 样本 排除 ， 那 么 操作 命令 应 该 相应 地 修改 为 : 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 然 后 选择 “Data”|“Data Editor”| “Data 
Editor(Browse) ”命令 ， 进 入 数据 查看 界面 ， 可 以 看 到 如 图 9.22 所 示 的 abcde 数据 。 


情 回 吧 双色 回 台 了 - 


Vars: 11 Order:Dataset Obs:30 Filler Off Mode:Edit CAF NUM 2 


9.22 ”延伸 4 分 析 结 果 图 
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结果 的 解读 方式 与 前 面 类 似 ， 限 于 篇 幅 ， 这 里 不 再 更 述 。 


9.2 实例 二 


层次 聚 类 分 析 


9.2.1 “层次 聚 类 分 析 的 功能 与 意义 


层次 聚 类 分 析 方 法 (Hierarchical) 与 划分 聚 类 分 析 方 法 的 原理 不 同 ， 它 的 基本 思想 是 根据 

- 定 的 标准 使 得 最 相近 的 样本 聚合 到 一 起 ， 然 后 逐步 放松 标准 使 得 次 相近 的 样本 聚合 到 一 起 ， 

最 终 实现 完全 聚 类 , 即 把 所 有 的 观测 样本 汇集 到 一 个 组 的 一 种 聚 类 方法 。 与 划分 聚 类 分 析 方 法 

相 比 ， 层 次 聚 类 分 析 方 法 的 计算 过 程 更 为 复杂 , 计算 速度 相对 较 慢 , 但 是 它 不 要 求 事先 指定 需 

要 分 类 的 数量 , 这 一 点 是 符合 聚 类 分 析 探 索性 的 本 质 特点 的 , 所 以 这 种 聚 类 分 析 方 法 应 用 也 非 
常 广泛 。 


9.2.2 ”相关 数据 来 源 


下 载 资源 :\Wideo\chap09\… 


下 载 资源 :\sample\chap09\ 案 例 9.2.dta 


【 例 9.2】 党 的 十 八大 报告 指出 要 千方百计 增加 居民 收入 ， 要 提高 居民 收入 在 国民 收入 分 
配 中 的 比重 ， 要 提高 劳动 报酬 在 初次 分 配 中 的 比重 。 表 9.3 是 我 国 2005 年 各 地 城镇 居民 平均 
每 人 全 年 家 庭 收入 来 源 统计 表 。 按 照相 关 统 计 口径 , 各 地 城镇 居民 家 庭 收入 来 源 分 为 工薪 收入 、 
经 营 净 收入 、 财 产 性 收入 、 转 移 性 收入 4 个 方面 。 试用 层次 聚 类 分 析 方 法 对 全 国 各 地 区 的 收入 
来 源 结构 进行 分 类 ， 并 进行 简要 论述 分 析 。 


表 9.3 2005 年 各 地 区 城镇 居民 每 人 全 年 家 庭 收 入 统计 表 (单位 : 元 ) 


4 574.99 
| 6346.53 : 2 508.96 
| 7 103.45 . E 1 947.77 


1 837.84 
25774 
19522 
新 疆 6553.47 522.14 54.51 1 563.54 


9.2.3 ”Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 5 个 变量 ， 分 别 是 地 
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区 、 工 薪 收 入 、 经 营 净 收 入 、 财 产 性 收入 、 转 移 性 收入 。 我 们 把 这 些 变量 分 别 定义 为 V1、V2、 
V3、V4、V5， 变 量 类 型 及 长 度 采取 系统 默认 方式 ， 然 后 录入 相关 数据 。 相 关 操 作 我 们 在 第 1 
章 中 已 有 详细 讲述 。 录 入 完成 后 数据 如 图 9.23 所 示 。 

日 peotdortdb-Egozi lee) 


File Edit View Data Tools 
EP EE 
VD 3 喧 
= 加 we 加 “ 卫 二 二 a 
2 和 W Filter variables here 
Name Label 
BVL 
司 evz 
ev 
BV4 
人 ER 
0 
1 二 T5499 1921.15 S294 L580 节 variables | 各 Snapshots 
人 加 
0. 


496.03 


日 Variables - 


0-96 


EE 


站 
20 -me 6575.39 519-87 01 5 Notes 
a 
3 Filename 宕 例 9.2 dta 
Lengt9 Vars:5 grder Dataset Obs3l Fiter Of Mode:Edit -AP NUM 


图 9.23 案例 9.2 数据 


层次 聚 类 分 析 方 法 〈Hierarchical) 有 很 多 种 ，Stata 14.0 支持 7 种 ， 包 括 最 短 联 结 法 聚 类 
分 析 (Single-Linkage Cluster Analysis) 、 最 长 联结 法 聚 类 分 析 〈Complete-Linkage Cluster 
Analysis) 、 平 均 联 结 法 聚 类 分 析 (Average-Linkage Cluster Analysis) 、 加 权 平均 联结 法 聚 类 
分 析 (Weighted-Average Linkage Cluster Analysis) 、 中 位 数 联结 法 聚 类 分 析 (Median-Linkage 
Cluster Analysis) 、 重 心 联结 法 聚 类 分 析 (Centroid-Linkage Cluster Analysis) 、Ward 联结 法 
聚 类 分 析 (Ward's Linkage Cluster Analysis) 等 。 我 们 先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 。 


1. 最短 联结 法 聚 类 分 析 
操作 步骤 如 下 : 


进入 Stata 14.0， 打 开 相关 数据 文件 ， 弹 出 主 界面 。 
在 主 界面 的 “Command” 文 本 框 中 分 别 输入 如 下 命令 并 按键 盘 上 的 回 车 键 进行 确认 。 


。 ”egen zv2=std(V2): 本 命令 旨 在 对 V2 变量 进行 标准 化 处 理 。 

e egen zv3=std(V3): 本 命令 旨 在 对 V3 变量 进行 标准 化 处 理 。 

。 egen zv4=std(V4): 本 命令 旨 在 对 V4 变量 进行 标准 化 处 理 。 

。 egen zv5=std(V5): 本 命令 旨 在 对 V5 变量 进行 标准 化 处 理 。 

。 summ ZVv2 zv3 zv4 zv5: 本 命令 旨 在 对 zv2、zv3、zv4、zv5 变量 进行 描述 性 统计 分 
析 。 

ecluster singlelinkage Zzv2 zv3 zv4 zv5: 本 命令 旨 在 使 用 最 短 联结 法 对 zv2、zv3 、zv4、 
ZV5 变量 进行 层次 聚 类 分 析 。 
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。 cluster dendrogram: 本 命令 旨 在 产生 聚 类 分 析 树 状 图 来 描述 层次 聚 类 分 析 的 结果 。 
国 设置 完毕 后 ， 等 待 输出 结果 。 


2. 最 长 联结 法 聚 类 分 析 
操作 步骤 如 下 : 


进入 Stata 14.0， 打 开 相关 数据 文件 ， 弹 出 主 界面 。 
加 在 主 界面 的 “Command” 文 本 框 中 分 别 输入 如 下 命令 并 按键 盘 上 的 回 车 键 进 行 确认 。 


egen zv2=std(V2): 本 命令 旨 在 对 V2 变量 进行 标准 化 处 理 。 

egen zv3=std(V3): 本 命令 旨 在 对 V3 变量 进行 标准 化 处 理 。 

egen zv4=std(V4): 本 命令 旨 在 对 V4 变量 进行 标准 化 处 理 。 

egen zv5=std(V5): 本 命令 旨 在 对 V5 变量 进行 标准 化 处 理 。 

summ  zv2 zv3 zv4 Zzv5: 本 命令 旨 在 对 zv2、zv3、zv4、zvS 变量 进行 描述 性 统计 分 

析 。 

。 ”clustercompletelinkage zv2 zv3 zv4 zv5: 本 命令 旨 在 使 用 最 长 联结 法 对 zv2、zv3、zv4、 
Zv5 变量 进行 层次 聚 类 分 析 。 

日 cluster dendrogram: 本 命令 旨 在 产生 聚 类 分 析 树 状 图 来 描述 层次 聚 类 分 析 的 结果 。 

国 设置 完毕 后 ， 等 待 输出 结果 。 


3. 平均 联结 法 聚 类 分 析 

操作 步骤 如 下 : 

加 进入 Stata 14.0， 打 开 相 关 数 据 文 件 ， 弹 出 主 界面 。 

在 主 界面 的 “Command” 文 本 框 中 分 别 输入 如 下 命令 并 按键 盘 上 的 回 车 键 进行 确认 。 


egen zv2=std(V2): 本 命令 旨 在 对 V2 变量 进行 标准 化 处 理 。 

egen zv3=std(V3): 本 命令 旨 在 对 V3 变量 进行 标准 化 处 理 。 

egen zv4=std(V4): 本 命令 旨 在 对 V4 变量 进行 标准 化 处 理 。 

egen zvS=std(V5): 本 命令 旨 在 对 V5 变量 进行 标准 化 处 理 。 

summ ZVv2 zv3 zv4 zv5: 本 命令 旨 在 对 Zzv2、zv3、zv4、zv5 变量 进行 描述 性 统计 分 

析 。 

。 cluster averagelinkage zv2 zv3 zv4 zv5: 本 命令 旨 在 使 用 平均 联结 法 对 zv2、zv3、zv4、 
Zzv5 变量 进行 层次 聚 类 分 析 。 

。 cluster dendrogram: 本 命令 旨 在 产生 聚 类 分 析 树 状 图 来 描述 层次 聚 类 分 析 的 结果 。 

加 设置 完毕 后 ， 等 待 输出 结果 。 


4. 加 权 平 均 联结 法 聚 类 分 析 
操作 步骤 如 下 : 
进入 Stata 14.0， 打 开 相 关 数 据 文件 ， 弹 出 主 界面 。 
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加 在 主 界面 的 “Command” 文 本 框 中 分 别 输入 如 下 命令 并 按键 盘 上 的 回 车 键 进行 确认 。 


egen Zzv2=std(V2): 本 命令 旨 在 对 V2 变量 进行 标准 化 处 理 。 

egen zv3=std(V3): 本 命令 旨 在 对 V3 变量 进行 标准 化 处 理 。 

egen zv4=std(V4): 本 命令 旨 在 对 V4 变量 进行 标准 化 处 理 。 

egen zvS=std(V5): 本 命令 旨 在 对 V5 变量 进行 标准 化 处 理 。 

summ ZVv2 zv3 zv4 zv5: 本 命令 旨 在 对 zv2、zv3、zv4、zv5 变量 进行 描述 性 统计 分 

析 。 

。 cluster waveragelinkage ZzZv2 zv3 zv4 zv5: 本 命令 旨 在 使 用 加 权 平 均 联 结 法 对 zv2、 
Zv3、Zv4、zv5 变量 进行 层次 聚 类 分 析 。 

。 “cluster dendrogram: 本 命令 旨 在 产生 聚 类 分 析 树 状 图 来 描述 层次 聚 类 分 析 的 结果 。 


加 设置 完毕 后 ， 等 待 输出 结果 。 

5. 中 位 数 联结 法 聚 类 分 析 

操作 步骤 如 下 : 

四 进入 Stata 14.0， 打 开 相 关 数据 文件 ， 弹 出 主 界面 。 

在 主 界面 的 “Command” 文 本 框 中 分 别 输入 如 下 命令 并 按键 盘 上 的 回 车 键 进行 确认 。 


egen zv2=std(V2): 本 命令 旨 在 对 V2 变量 进行 标准 化 处 理 。 

egen zv3=std(V3): 本 命令 旨 在 对 V3 变量 进行 标准 化 处 理 。 

egen zv4=std(V4): 本 命令 旨 在 对 V4 变量 进行 标准 化 处 理 。 

egen zvS=std(V5): 本 命令 旨 在 对 V5 变量 进行 标准 化 处 理 。 

summ ZVv2 zv3 zv4 Zzv5: 本 命令 旨 在 对 zv2、zv3、zv4、zvSs 变量 进行 描述 性 统计 分 

析 。 

ecluster medianlinkage zv2 zv3 zv4 Zzv5: 本 命令 旨 在 使 用 中 位 数 联结 法 对 zv2、zv3、zv4、 
Zv5 变量 进行 层次 聚 类 分 析 。 

。 cluster dendrogram: 本 命令 旨 在 产生 聚 类 分 析 树 状 图 来 描述 层次 聚 类 分 析 的 结果 。 

设置 完毕 后 ， 等 待 输出 结果 。 

6. 重心 联结 法 聚 类 分 析 

操作 步骤 如 下 : 

加 进入 Stata 14.0， 打 开 相 关 数据 文件 ， 弹 出 主 界面 。 

加 在 主 界面 的 “Command” 文 本 框 中 分 别 输入 如 下 命令 并 按键 盘 上 的 回 车 键 进 行 确认 。 


egen zv2=std(V2): 本 命令 旨 在 对 V2 变量 进行 标准 化 处 理 。 
egen zv3=std(V3): 本 命令 旨 在 对 V3 变量 进行 标准 化 处 理 。 
egen zv4=std(V4): 本 命令 旨 在 对 V4 变量 进行 标准 化 处 理 。 
egen zvS=std(V5): 本 命令 旨 在 对 V5 变量 进行 标准 化 处 理 。 
summ ZVv2Zv3 zv4 zv5: 本 命令 旨 在 对 zv2、zv3、zv4、zv5 变量 进行 描述 性 统计 分 析 。 
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zv5 变量 进行 层次 聚 类 分 析 。 
辆 设置 完毕 后 ， 等 待 输出 结果 。 


7. Ward 联结 法 聚 类 分 析 
操作 步骤 如 下 : 


进入 Stata 14.0， 打 开 相关 数据 文件 ， 弹 出 主 界面 。 
[加 在 主 界面 的 “Command” 文 本 框 中 分 别 输入 如 下 命令 并 按键 盘 上 的 回 车 键 进 行 确认 。 


egen zv2=std(V2): 本 命令 旨 在 对 V2 变量 进行 标准 化 处 理 。 

egen zv3=std(V3): 本 命令 旨 在 对 V3 变量 进行 标准 化 处 理 。 

egen zv4=std(V4): 本 命令 旨 在 对 V4 变量 进行 标准 化 处 理 。 

egen zvS=std(V5): 本 命令 旨 在 对 V5 变量 进行 标准 化 处 理 。 

summ ZVv2 zv3 zv4 Zzv5: 本 命令 旨 在 对 zv2、zv3、zv4、zv5 变量 进行 描述 性 统计 分 

析 。 

。 cluster wardslinkage zv2 zv3 zv4 Zzv5: 本 命令 旨 在 使 用 Ward 联结 法 对 zv2、zv3、zv4、 
ZV5 变量 进行 层次 聚 类 分 析 。 

。 cluster dendrogram: 本 命令 旨 在 产生 聚 类 分 析 树 状 图 来 描述 层次 聚 类 分 析 的 结果 。 

加 设置 完毕 后 ， 等 待 输出 结果 。 


在 Stata 14.0 主 界面 的 结果 窗口 我 们 可 以 看 到 如 图 9.24~ 图 9.45 所 示 的 分 析 结 果 。 
1， 最 短 联结 法 聚 类 分 析 (Single-Linkage Cluster Analysis) 


在 分 析 过 程 中 前 4 条 Stata 命令 则 在 对 数据 进行 标准 化 处 理 ， 选 择 的 标准 化 处 理 方式 是 使 
变量 的 平均 数 为 0 而且 标准 差 为 1。 之 所 以 这 样 做 是 因为 我 们 进行 聚 类 分 析 的 变量 都 是 以 不 可 
比 的 单位 进行 的 测度 , 它们 具有 极为 不 同 的 方差 , 我 们 对 数据 进行 标准 化 处 理 可 以 避免 使 结果 
受到 具有 最 大 方差 变量 的 影响 。 在 输入 前 4 条 Stata 命令 并 且 分 别 按键 盘 上 的 回 车 键 进行 确认 
后 ， 选 择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 9.24 所 示 的 变换 后 的 数据 。 
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图 9.24 ”标准 化 变换 后 的 数据 
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根据 我 们 在 前 面 章节 中 讲述 的 描述 性 统计 分 析 方法 ， 可 以 看 到 如 图 9.25 所 示 的 标准 化 变 


2.74791。 


Variable | 


Nin Max 


zv2 


-.8764872 。 2.744534 
-1.808074 。 3.779561 
-1.23813 2.909354 


-2.248093 。 2.74791 


图 9.25 ”标准 化 变量 的 相应 统计 量 分 析 结果 图 
通过 观察 分 析 结 果 可 以 看 出 , 有 效 观测 样本 共有 31 个 。zv2 的 平均 值 为 2.40e-09， 标 准 差 


是 1， 最 小 值 是 -0.8764872， 最 大 值 是 2.744534; zv3 的 平均 值 为 1.56e-09， 标 准 差 是 1， 最 小 
值 是 -1.808074, 最 大 值 是 3.779561; zv4 的 平均 值 为 1.08e-09, 标准 差 是 1, 最 小 值 是 -1.23813， 
最 大 值 是 2.909354; zv5 的 平均 值 为 -5.86e-10， 标 准 差 是 1， 最 小 值 是 -2.248093， 最 大 值 是 


图 9.26 展示 的 是 使 用 “最 短 联结 法 聚 类 分 析 ” 方 法 进行 分 析 的 结果 。 在 输入 第 6 条 Stata 


命令 并 且 分 别 按键 盘 上 的 回 车 键 进行 确认 后 , 可 以 看 到 系统 产生 了 一 个 新 的 变量 , 即 聚 类 变量 


_clus_1 (clustername: clus 1) 。 


+ cluster singlelinkage zv2 zv3 zv4 zv5 
cluster name: clus 1 


9.26 ”最 短 联结 法 聚 类 分 析 结 果 图 


选择 “Data”|“Data Editor”| “Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 9.27 所 示 的 _clus_1 数据 。 
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图 9.27 _clus 1 数据 


在 图 9.27 中 , 可 以 看 到 层次 聚 类 分 析 方 法 产生 的 聚 类 变量 是 与 划分 聚 类 分 析 方 法 不 同 的 ， 
它 包 括 3 个 组 成 部 分 :_clus_1 id、_clus_ 1 ord、_clus_1_hsgt。 其 中 ，_clus_1 id 表示 的 是 系统 
对 该 观测 样本 的 初始 编号 ，_clus_1_ord 表示 的 是 系统 对 该 观测 样本 进行 聚 类 分 析 处 理 后 的 编 
号 ; _clus_1_hgt 表示 的 是 系统 对 该 观测 样本 进行 聚 类 计算 后 的 值 。 

为 了 使 聚 类 分 析 的 结果 可 视 化， 我 们 需要 绘制 如 图 9.28 所 示 的 聚 类 分 析 树 状 图 。 在 输入 
第 7 条 Stata 命令 并 且 分 别 按键 盘 上 的 回 车 键 进行 确认 后 ， 可 以 看 到 系统 产生 了 聚 类 分 析 树 状 
图 。 


Dendrogram for _clus_1 dluster analysis 


-111 9261913252 1015 5182721202223 6 4 1412 3 7 161729 8 24302831 


图 9.28 聚 类 分 析 树 状 图 
观察 图 9.28， 可 以 直观 地 看 到 具体 的 聚 类 情况 : 7 号 样本 跟 16 号 样本 首先 聚合 在 一 起 ， 
进入 数据 查看 界面 查看 _clus_1_id 变量 ， 7 号 样本 代表 的 是 吉林 ，16 号 样本 代表 的 是 河南 。7 
号 样本 与 16 号 样本 聚合 后 又 与 3 号 样本 (河北) 聚合 ， 依 次 类 推 ， 最 后 11 号 样本 (浙江 ) 与 
所 有 样本 聚合 为 一 类 。 那么 ,到 底 分 成 了 多 少 类 呢 ? 答案 是 不 确定 的 ， 因 为 这 取决 于 研究 的 需 
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2. 最 长 联结 法 聚 类 分 析 (Complete-Linkage Cluster Analysis) 

在 分 析 过 程 中 前 4 条 Stata 命令 则 在 对 数据 进行 标准 化 处 理 ， 选 择 的 标准 化 处 理 方式 是 使 
变量 的 平均 数 为 0， 而 且 标 准 差 为 1。 处 理 结果 与 最 短 联结 法 聚 类 分 析 是 一 致 的 ， 限 于 篇 幅 ， 
这 里 不 再 著述 。 

9.29 展示 的 是 使 用 “最 长 联结 法 聚 类 分 析 ” 方 法 进行 分 析 的 结果 。 在 输入 第 6 条 Stata 
命令 并 且 分 别 按键 盘 上 的 回 车 键 进行 确认 后 , 可 以 看 到 系统 产生 了 一 个 新 的 变量 , 即 聚 类 变量 


_clus_ 1 (clustername: clus 1) 。 


+ cluster completelinkage zy2 zy3 zv4 zy5 
cluster name: _clus 1 


图 9.29 最 长 联结 法 聚 类 分 析 结果 图 


选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 9.30 所 示 的 _clus_1 数据 。 
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3065s p22 M6 7 S22 2 S75 06 
16095.49 60.00 77 O291709 -S085773 -2627164 
6 9.74 12.34 6840742 ~4549045 ~,2700696 
805) C2] 1395.6 ge :277594 ~ 3206295 
29 65.04 -104.51 .28 3467381873044 94 
0 e759 9 M61 F902475 -087515208404 
ET G65 9360.35 O732902 。 ,13970879 .789635: 
EE p24 M2 N64 76 7 
EE S18:49 2 O2756 29445682506 
ET 790.04 20,35 S766 -6277764 -S53450% 
5 G70. $95.05 07 S439] = 1,954753 2163442 
36 i001.74 4 340.4 008074 -1.29813 -3.248033 
EA 179.j4 ER 934 .28448287 pe 
ee N84 .于 608 .00533360 
和 63.79 [ER .08 4094c25 94313278。 0066404 
0 Sg 86 4 -009205 S006 58727343 


7 S214 Sh S54 97 5 0 


9.30 _clus_1 数据 


为 了 使 聚 类 分 析 的 结果 可 视 化 ， 我 们 需要 绘制 如 图 9.31 所 示 的 聚 类 分 析 树 状 图 。 在 输入 
第 7 条 Stata 命令 并 且 分 别 按键 盘 上 的 回 车 键 进行 确认 后 ， 可 以 看 到 系统 产生 了 聚 类 分 析 树 状 
图 。 
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图 9.31 聚 类 分 析 树 状 图 

观察 图 9.31， 可 以 直观 地 看 到 具体 的 聚 类 情况 : 7 号 样本 与 16 号 样本 首先 聚合 在 一 起 ， 
进入 数据 查看 界面 查看 _clus_1_id 变量 ，7 号 样本 代表 的 是 吉林 ，16 号 样本 代表 的 是 河南 。7 
号 样本 与 16 号 样本 聚合 后 又 与 3 号 样本 (河北 ) 聚合 ， 依 次 类 推 ， 最 后 11 号 样本 (浙江 ) 与 
所 有 样本 聚合 为 一 类 。 

3. 平均 联结 法 聚 类 分 析 (Average-Linkage Cluster Analysis) 

在 分 析 过 程 中 前 4 条 Stata 命令 则 在 对 数据 进行 标准 化 处 理 ， 选 择 的 标准 化 处 理 方式 是 使 
变量 的 平均 数 为 0， 而 且 标准 差 为 1。 处 理 结果 与 最 短 联结 法 聚 类 分 析 是 一 致 的 ， 限 于 篇 幅 ， 
这 里 不 再 资 述 。 

图 9.32 展示 的 是 使 用 “平均 联结 法 聚 类 分 析 ” 方 法 进行 分 析 的 结果 。 在 输入 第 6 条 Stata 
命令 并 且 分 别 按键 盘 上 的 回 车 键 进行 确认 后 , 可 以 看 到 系统 产生 了 一 个 新 的 变量 , 即 聚 类 变量 


_clus_ 1 (clustername: clus _ 1) 。 


. cluster averagelinkage zv2 zv3 zvd4 zV5 
luster name: _clus 1 
图 9.32 平均 联结 法 聚 类 分 析 结 果 图 


选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 9.33 所 示 的 _clus_1 数据 。 

为 了 使 聚 类 分 析 的 结果 可 视 化 ， 需 要 绘制 如 图 9.34 所 示 的 聚 类 分 析 树 状 图 。 在 输入 第 7 
条 Stata 命令 并 且 分 别 按键 盘 上 的 回 车 键 进行 确认 后 ， 可 以 看 到 系统 产生 了 聚 类 分 析 树 状 图 。 
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图 9.33 _clus_1 数据 


Dendrogram for _clus_1 dluster analysis 


L2 dissimilarity measure 


eg 9 2103 71612141729 62831 4 27202223 5 1821 8 2430151325192611 


9.34 ” 聚 类 分 析 树 状 图 


观察 图 9.34， 可 以 直观 地 看 到 具体 的 聚 类 情况 : 7 号 样本 与 16 号 样本 首先 聚合 在 一 起 ， 
进入 数据 查看 界面 查看 _clus_1_id 变量， 7 号 样本 代表 的 是 吉林 ，16 号 样本 代表 的 是 河南 。7 
号 样本 与 16 号 样本 聚合 后 又 与 3 号 样本 (河北 ) 聚合 ， 依 次 类 推 ， 最 后 11 号 样本 (浙江 ) 与 
所 有 样本 聚合 为 一 类 。 

4. 加 权 平 均 联 结 法 聚 类 分 析 (Weighted-Average Linkage Cluster Analysis) 

在 分 析 过 程 中 前 4 条 Stata 命令 则 在 对 数据 进行 标准 化 处 理 ， 选 择 的 标准 化 处 理 方式 是 使 
变量 的 平均 数 为 0 而且 标准 差 为 1。 处 理 结果 与 最 短 联结 法 聚 类 分 析 是 一 致 的 ， 限 于 篇 幅 ， 这 
里 不 再 著述 。 

9.35 展示 的 是 使 用 “加 权 平 均 联结 法 聚 类 分 析 ” 方 法 进行 分 析 的 结果 。 在 输入 第 6 条 
Stata 命令 并 且 分 别 按键 盘 上 的 回 车 键 进行 确认 后 ， 可 以 看 到 系统 产生 了 一 个 新 的 变量 ， 即 聚 
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类 变量 clus 1 (cluster name: clus 1) 。 

选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 9.36 所 示 的 _clus_1 数据 。 


xls SEEDiSioe ve 


， cluster waveragelinkage zyw2 zv3 zv4 zy5 


cluster name: _clus 1 


基站 各 共 


图 935 ”加权 平均 联结 法 聚 类 分 析 结 果 图 图 9.36 _clus_1 数据 


为 了 使 聚 类 分 析 的 结果 可 视 化 ， 需 要 绘制 如 图 9.37 所 示 的 聚 类 分 析 树 状 图 。 在 输入 第 7 
条 Stata 命令 并 且 分 别 按键 盘 上 的 回 车 键 进行 确认 后 ， 可 以 看 到 系统 产生 了 聚 类 分 析 树 状 图 。 


Dendrogram for _clus_1 cluster analysis 


© 1 9 210 3 7 161214172928314 27202223 6 15 5 1821 8 24301325191126 


9.37 聚 类 分 析 树 状 图 


观察 图 9.37， 可 以 直观 地 看 到 具体 的 聚 类 情况 : 7 号 样本 与 16 号 样本 首先 聚合 在 一 起 ， 
进入 数据 查看 界面 查看 _clus_1_id 变量 ， 7 号 样本 代表 的 是 吉林 ，16 号 样本 代表 的 是 河南 ，7 
号 样本 与 16 号 样本 聚合 后 又 与 3 号 样本 (河北 ) 聚合 ， 依 次 类 推 。 最 后 ，11 号 样本 浙江 》 
与 所 有 样本 聚合 为 一 类 。 

5. 中 位 数 联结 法 聚 类 分 析 (Median-Linkage Cluster Analysis) 

在 分 析 过 程 中 前 4 条 Stata 命令 则 在 对 数据 进行 标准 化 处 理 ， 选 择 的 标准 化 处 理 方式 是 使 
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变量 的 平均 数 为 0 而 且 标准 差 为 1。 处 理 结果 与 最 短 联 结 法 聚 类 分 析 是 一 致 的 ， 限 于 篇 幅 ， 这 
里 不 再 歼 述 。 

9.38 展示 的 是 使 用 “中 位 数 联 结 法 聚 类 分 析 ”方法 进行 分 析 的 结果 。 在 输入 第 6 条 Stata 
命令 并 且 分 别 按键 盘 上 的 回 车 键 进行 确认 后 , 可 以 看 到 系统 产生 了 一 个 新 的 变量 , 即 聚 类 变量 
_clus_1 (clustername: clus 1) 。 

选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 9.39 所 示 的 _clus_1 数据 。 


cluster medianlinkage zv2 zv3 zwd zv5 


cluster name: clus 1 


图 9.38 中 位 数 联结 法 聚 类 分 析 结 果 图 图 9.39 _clus 1 数据 


为 了 使 聚 类 分 析 的 结果 可 视 化 ， 需 要 绘制 如 图 9.40 所 示 的 聚 类 分 析 树 状 图 。 在 输入 第 7 
条 Stata 命令 并 且 分 别 按键 盘 上 的 回 车 键 进行 确认 后 ， 可 以 看 到 系统 产生 了 聚 类 分 析 树 状 图 。 

观察 图 9.40， 可 以 直观 地 看 到 具体 的 聚 类 情况 : 7 号 样本 与 16 号 样本 首先 聚合 在 一 起 。 
进入 数据 查看 界面 查看 _clus_1_id 变量 ，7 号 样本 代表 的 是 吉林 ，16 号 样本 代表 的 是 河南 ，7 
号 样本 与 16 号 样本 聚合 后 又 与 3 号 样本 (河北 ) 聚合 ， 依 次 类 推 。 最 后 ，11 号 样本 (浙江 》) 
与 所 有 样本 聚合 为 一 类 。 


Dendrogram for _clus_1 cluster analysis 


1 9 21013253 71612141729 6 4 272831 5 182120222315 82430191126 


9.40” 聚 类 分 析 树 状 图 
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6. 重心 联结 法 聚 类 分 析 (Centroid-Linkage Cluster Analysis) 

在 分 析 过 程 中 前 4 条 Stata 命令 旨 在 对 数据 进行 标准 化 处 理 ， 选 择 的 标准 化 处 理 方式 是 使 
变量 的 平均 数 为 0 而且 标准 差 为 1。 处 理 结果 与 最 短 联结 法 聚 类 分 析 是 一 致 的 ， 限 于 篇 幅 ， 这 
里 不 再 袭 述 。 

图 9.41 展示 的 是 使 用 “重心 联结 法 聚 类 分 析 ” 方 法 进行 分 析 的 结果 。 在 输入 第 6 条 Stata 
命令 并 且 分 别 按键 盘 上 的 回 车 键 进行 确认 后 , 可 以 看 到 系统 产生 了 一 个 新 的 变量 , 即 聚 类 变量 


_clus_1 (clustername: clus 1) 。 
cluster name: clus 1 
图 9.41 重心 联结 法 聚 类 分 析 结 果 图 


选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 9.42 所 示 的 _clus_1 数据 。 


mm ld em le -al 


SS 


图 9.42 _clus_1 数据 

与 其 他 的 层次 聚 类 分 析 方 法 不 同 的 是 ， 重 心 联结 法 聚 类 分 析 无 法 绘制 树 状 图 。 

7. Ward 联结 法 聚 类 分 析 (Ward's Linkage Cluster Analysis) 

在 分 析 过 程 中 前 4 条 Stata 命令 则 在 对 数据 进行 标准 化 处 理 ， 选 择 的 标准 化 处 理 方式 是 使 
变量 的 平均 数 为 0 而 且 标准 差 为 1。 处 理 结果 与 最 短 联结 法 聚 类 分 析 是 一 致 的 ， 限 于 篇 幅 ， 这 
里 不 再 袭 述 。 

图 9.43 展示 的 是 使 用 “Ward 联结 法 聚 类 分 析 ” 方 法 进行 分 析 的 结果 。 在 输入 第 6 条 Stata 
命令 并 且 分 别 按键 盘 上 的 回 车 键 进行 确认 后 , 可 以 看 到 系统 产生 了 一 个 新 的 变量 , 即 聚 类 变量 


_clus 1 (clustername: clus 1) 。 


.cluster wardslinkage zv2 zv3 zv4 zv5 
[cluster name: clus 1 


9.43 ”Ward 联结 法 聚 类 分 析 结果 图 
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选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 9.44 所 示 的 _clus_1 数据 。 


_clus_1 数据 


在 图 9.44 中 ， 可 以 看 到 层次 聚 类 分 析 方 法 产生 的 聚 类 变量 的 3 个 组 成 部 分 ，_clus_1_id、 
_clus_1_ord、_clus_1_hgt。 其 中 _clus_1_id 表示 的 是 系统 对 该 观测 样本 的 初始 编号 ; _clus_1_ord 
表示 的 是 系统 对 该 观测 样本 进行 聚 类 分 析 处 理 后 的 编号 ，_clus_1_hgt 表示 的 是 系统 对 该 观测 
样本 进行 聚 类 计算 后 的 值 。 

为 了 使 聚 类 分 析 的 结果 可 视 化， 需要 绘制 如 图 9.45 所 示 的 聚 类 分 析 树 状 图 。 在 输入 第 7 
条 Stata 命令 并 且 分 别 按键 盘 上 的 回 车 键 进 行 确认 后 ， 可 以 看 到 系统 产生 了 聚 类 分 析 树 状 图 。 


Dendrogram for _clus_1 cluster analysis 


1 9 21013251911 3 7 16121417 6 29 4 27283115202223 5 18218 243026 
9.45 “ 聚 类 分 析 树 状 图 


观察 图 9.45， 可 以 直观 地 看 到 具体 的 聚 类 情况 : 7 号 样本 与 3 号 样本 首先 聚合 在 一 起 ， 进 
入 数据 查看 界面 查看 _clus_1 id 变量 , 7 号 样本 代表 的 是 吉林 ，3 号 样本 代表 的 是 河北 ，7 号 样 
本 与 3 号 样本 聚合 后 又 与 16 号 样本 (河南 ) 聚合 ， 依 次 类 推 。 
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9.2.5 ”案例 延伸 


上 述 的 Stata 命令 比较 简洁 ， 分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 

下 面 将 根据 拟 分 类 数 进行 聚 类 的 案例 延伸 分 析 。 

在 以 上 各 种 层次 聚 类 分 析 方法 中 ， 如 果 样本 比较 多 ， 可 能 图 中 就 显得 比较 乱 ， 可 以 使 用 产生 
聚 类 变量 的 方法 对 样本 进行 有 拟 分 类 数 的 聚 类 。 例 如 ， 分 别 把 所 有 观测 样本 分 为 4 类 和 2 类。 

操作 命令 如 下 。 


日 ”cluster generate typel=group(4): 本 命令 的 含义 是 产生 聚 类 变量 typel， 使 用 层次 聚 类 
分 析 方 法 ， 把 样本 分 为 4 类 。 

日 cluster generate type2=group(2): 本 命令 的 含义 是 产生 聚 类 变量 type2， 使 用 层次 聚 类 
分 析 方 法 ， 把 样本 分 为 2 类 。 

本 操作 命令 对 所 有 层次 聚 类 分 析 方法 均 适 用 。 

使 用 各 种 层次 聚 类 分 析 方 法 对 观测 样本 进行 拟 分 类 数 的 聚 类 结果 如 图 9.46~ 图 9.59 所 示 。 

1. 最短 联结 法 聚 类 分 析 

图 9.46 展示 的 是 设 定 聚 类 数 为 4， 然 后 进行 分 析 的 结果 。 在 输入 第 1 条 Stata 命令 并 且 分 
别 按键 盘 上 的 回 车 键 进行 确认 后 ， 选 择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 
进入 数据 查看 界面 ， 可 以 看 到 如 图 9.46 所 示 的 typel 数据 。 

在 图 9.46 中 ， 可 以 看 到 所 有 的 观测 样本 被 分 为 4 类 : 其 中 ， 浙 江 被 分 到 第 1 类 ， 上 海 、 
北京 为 第 2 类, 西藏 为 第 3 类 ， 其 他 省 市 为 第 4 类 。 可 以 发 现 第 1 类 的 特征 是 经 营 净 收 入 、 财 
产 性 收入 高 ;第 2 类 的 特征 是 工薪 收入 、 转 移 性 收入 高 ; 第 3 类 的 特征 是 收入 水 平 普遍 较 低 ; 
第 4 类 的 特征 是 所 有 收入 都 处 在 中 间 水 平 。 


图 9.46 最 短 联结 法 聚 类 分 析 typel 数据 


图 9.47 展示 的 是 设 定 聚 类 数 为 2， 然后 进行 分 析 的 结果 。 在 输入 第 2 条 Stata 命令 并 且 分 
别 按键 盘 上 的 回 车 键 进行 确认 后 ， 选 择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 
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进入 数据 查看 界面 ， 可 以 看 到 如 图 9.47 所 示 的 type2 数据 。 
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图 9.47 ”最 短 联结 法 聚 类 分 析 type2 数据 

在 图 9.47 中 ， 可 以 看 到 所 有 的 观测 样本 被 分 为 两 类 。 其 中 ， 浙 江 被 分 到 第 1 类 ， 其 他 省 
市 为 第 2 类 。 第 1 类 的 特征 是 经 营 净 收 入 、 财 产 性 收入 高 ; 第 2 类 的 特征 不 明显 。 

2. 最 长 联结 法 聚 类 分 析 

9.48 展示 的 是 设 定 聚 类 数 为 4， 然 后 进行 分 析 的 结果 。 在 输入 第 1 条 Stata 命令 并 且 分 
别 按 键盘 上 的 回 车 键 进行 确认 后 ， 选 择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 
进入 数据 查看 界面 ， 可 以 看 到 如 图 9.48 所 示 的 typel 数据 。 
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图 9.48 ”最 长 联结 法 聚 类 分 析 typel 数据 

在 图 9.48 中 ， 可 以 看 到 所 有 的 观测 样本 被 分 为 4 类 : 其 中 ， 浙 江 被 分 到 第 1 类 ， 上 海 、 
北京 为 第 2 类 ,西藏 为 第 3 类 ， 其 他 省 市 为 第 4 类。 第 1 类 的 特征 是 经 营 净 收入 、 财 产 性 收入 
高 ; 第 2 类 的 特征 是 工薪 收入 、 转 移 性 收入 高 ; 第 3 类 的 特征 是 收入 水 平 普遍 较 低 ; 第 4 类 的 
特征 是 所 有 收入 都 处 在 中 间 水 平 。 处 理 结 果 与 最 短 联结 法 聚 类 分 析 是 一 致 的 。 
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9.49 展示 的 是 设 定 聚 类 数 为 2， 然 后 进行 分 析 的 结果 。 在 输入 第 2 条 Stata 命令 并 且 分 
别 按键 盘 上 的 回 车 键 进行 确认 后 ， 选 择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 
进入 数据 查看 界面 ， 可 以 看 到 如 图 9.49 所 示 的 type2 数据 。 


图 9.49 最 长 联结 法 聚 类 分 析 type2 数据 


在 图 9.49 中 ， 可 以 看 到 所 有 的 观测 样本 被 分 为 两 类 。 其 中 ， 浙 江 被 分 到 第 2 类 ， 其 他 省 
市 为 第 1 类 。 第 2 类 的 特征 是 经 营 净 收 入 、 财 产 性 收入 高 ， 第 1 类 的 特征 不 明显 。 处 理 结果 与 
最 短 联结 法 聚 类 分 析 是 一 致 的 。 

3. 平均 联结 法 聚 类 分 析 

9.50 展示 的 是 设 定 聚 类 数 为 4， 然 后 进行 分 析 的 结果 。 在 输入 第 1 条 Stata 命令 并 且 分 
别 按键 盘 上 的 回 车 键 进行 确认 后 ， 选 择 “Data”| “Data Editor”|“Data Editor(Browse)” 命 令 ， 
进入 数据 查看 界面 ， 可 以 看 到 如 图 9.50 所 示 的 typel 数据 。 


加 EE FE E27 i ER A 


图 9.50 平均 联结 法 聚 类 分 析 typel 数据 


在 图 9.50 中 ， 可 以 看 到 所 有 的 观测 样本 被 分 为 4 类 : 其 中 ， 浙 江 被 分 到 第 4 类 ， 上 海 、 
北京 为 第 1 类 , 西藏 为 第 3 类 ， 其 他 省 市 为 第 4 类 。 第 4 类 的 特征 是 经 营 净 收 入 、 财 产 性 收入 
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高 。 第 1 类 的 特征 是 工薪 收入 、 转 移 性 收入 高 , 第 3 类 的 特征 是 收入 水 平 普遍 较 低 ， 第 2 类 的 
特征 是 所 有 收入 都 处 在 中 间 水 平 。 处 理 结 果 与 最 短 联 结 法 聚 类 分 析 是 一 致 的 。 

9.51 展示 的 是 设 定 聚 类 数 为 2， 然 后 进行 分 析 的 结果 。 在 输入 第 2 条 Stata 命令 并 且 分 
别 按键 盘 上 的 回 车 键 进行 确认 后 ， 选 择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 


veut ll 


图 9.51 平均 联结 法 聚 类 分 析 type2 数据 

在 图 9.51 中 ， 可 以 看 到 所 有 的 观测 样本 被 分 为 两 类 ， 其 中 浙江 被 分 到 第 2 类 ， 其 他 省 市 
为 第 1 类 。 第 2 类 的 特征 是 经 营 净 收 入 、 财 产 性 收入 高 , 第 1 类 的 特征 不 明显 。 处 理 结 果 与 最 
短 联结 法 聚 类 分 析 是 一 致 的 。 

4. 加 权 平 均 联 结 法 聚 类 分 析 

9.52 展示 的 是 设 定 聚 类 数 为 4， 然后 进行 分 析 的 结果 。 在 输入 第 1 条 Stata 命令 并 且 分 
别 按键 盘 上 的 回 车 键 进行 确认 后 ， 选 择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 
进入 数据 查看 界面 ， 可 以 看 到 如 图 9.52 所 示 的 typel 数据 。 
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图 9.52 ”加 权 平 均 联结 法 typel 数据 
在 图 9.52 中 ， 可 以 看 到 所 有 的 观测 样本 被 分 为 4 类: 其中， 浙江 被 分 到 第 3 类 ， 上 海 、 
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北京 为 第 1 类 , 西藏 为 第 4 类 ，, 其 他 省 市 为 第 2 类 。 第 3 类 的 特征 是 经 营 净 收入 、 财 产 性 收入 
高 ; 第 1 类 的 特征 是 工薪 收入 、 转 移 性 收入 高 ; 第 4 类 的 特征 是 收入 水 平 普 遍 较 低 ; 第 2 类 的 
特征 是 所 有 收入 都 处 在 中 间 水 平 。 处 理 结果 与 最 短 联结 法 聚 类 分 析 是 一 致 的 。 

9.53 展示 的 是 设 定 聚 类 数 为 2， 然 后 进行 分 析 的 结果 。 在 输入 第 2 条 Stata 命令 并 且 分 
别 按键 盘 上 的 回 车 键 进行 确认 后 ， 选 择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 
进入 数据 查看 界面 ， 可 以 看 到 如 图 9.53 所 示 的 type2 数据 。 

在 图 9.53 中 ， 可 以 看 到 所 有 的 观测 样本 被 分 为 两 类 : 其 中 ， 浙 江 被 分 到 第 2 类 ， 其 他 省 
市 为 第 1 类 。 第 2 类 的 特征 是 经 营 净 收 入 、 财 产 性 收入 高 ， 第 1 类 的 特征 不 明显 。 处 理 结果 与 
最 短 联 结 法 聚 类 分 析 是 一 致 的 。 


图 9.53 加 权 平均 联结 法 type2 数据 
5. 中 位 数 联结 法 聚 类 分 析 
9.54 展示 的 是 设 定 聚 类 数 为 4， 然后 进行 分 析 的 结果 。 在 输入 第 1 条 Stata 命令 并 且 分 
别 按键 盘 上 的 回 车 键 进行 确认 后 ， 选 择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 
进入 数据 查看 界面 ， 可 以 看 到 如 图 9.54 所 示 的 typel sh 
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9.54 中 位 数 联结 法 typel 数据 
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北京 为 第 1 类 , 西藏 为 第 4 类 ， 其 他 省 市 为 第 2 类 。 第 3 类 的 特征 是 经 营 净 收 入 、 财 产 性 收入 
高 ; 第 1 类 的 特征 是 工薪 收入 、 转 移 性 收入 高 ; 第 4 类 的 特征 是 收入 水 平 普遍 较 低 ; 第 2 类 的 
特征 是 所 有 收入 都 处 在 中 间 水 平 。 处 理 结果 与 最 短 联 结 法 聚 类 分 析 是 一 致 的 。 

图 9.55 展示 的 是 设 定 聚 类 数 为 2， 然后 进行 分 析 的 结果 。 在 输入 第 2 条 Stata 命令 并 且 分 
别 按键 盘 上 的 回 车 键 进行 确认 后 ， 选 择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 
进入 数据 查看 界面 ， 可 以 看 到 如 图 9.55 所 示 的 type2 数据 。 
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图 9.55 中 位 数 联结 法 type2 数据 


在 图 9.55 中 ， 可 以 看 到 所 有 的 观测 样本 被 分 为 两 类 : 其中， 西藏 被 分 到 第 2 类 ， 其 他 省 
市 为 第 1 类 。 第 2 类 的 特征 是 工薪 收入 较 高 ， 经 营 净 收 入 、 财 产 性 收入 高 、 转 移 性 收入 较 低 。 

6. 重心 联结 法 聚 类 分 析 

图 9.56 展示 的 是 设 定 聚 类 数 为 4， 然 后 进行 分 析 的 结果 。 在 输入 第 7 条 Stata 命令 并 且 分 
别 按键 盘 上 的 回 车 键 进行 确认 后 ， 选 择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 
进入 数据 查看 界面 ， 可 以 看 到 如 图 9.56 所 示 的 typel 数据 。 

在 图 9.56 中 ， 可 以 看 到 所 有 的 观测 样本 被 分 为 4 类 : 其 中 ， 浙 江 被 分 到 第 2 类 ， 上 海 、 
北京 为 第 1 类 , 西藏 为 第 4 类 ， 其 他 省 市 为 第 3 类 。 第 2 类 的 特征 是 经 营 净 收 入 、 财 产 性 收入 
高 ; 第 1 类 的 特征 是 工薪 收入 、 转 移 性 收入 高 ; 第 4 类 的 特征 是 收入 水 平 普遍 较 低 ; 第 3 类 的 
特征 是 所 有 收入 都 处 在 中 间 水 平 。 处 理 结果 与 最 短 联结 法 聚 类 分 析 是 一 致 的 。 

图 9.57 展示 的 是 设 定 聚 类 数 为 2， 然 后 进行 分 析 的 结果 。 在 输入 第 1 条 Stata 命令 并 且 分 
别 按键 盘 上 的 回 车 键 进行 确认 后 ， 选 择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 
进入 数据 查看 界面 ， 可 以 看 到 如 图 9.57 所 示 的 type2 数据 。 
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9.56 重心 联结 法 聚 类 分 析 typel 数据 
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9.57 ”重心 联结 法 聚 类 分 析 type2 数据 

在 图 9.57 中 ， 可 以 看 到 所 有 的 观测 样本 被 分 为 两 类 : 其 中 ， 浙 江 、 北 京 、 上 海 、 广 东 被 
分 到 第 1 类 ，, 其 他 省 市 为 第 2 类 。 第 1 类 的 特征 是 各 类 收入 普遍 较 高 ， 第 2 类 的 特征 是 各 类 收 
入 普遍 较 低 。 

7. Ward 联结 法 聚 类 分 析 

9.58 展示 的 是 设 定 聚 类 数 为 4， 然 后 进行 分 析 的 结果 。 在 输入 第 1 条 Stata 命令 并 且 分 
别 按键 盘 上 的 回 车 键 进行 确认 后 ， 选 择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 
进入 数据 查看 界面 ， 可 以 看 到 如 图 9.58 所 示 的 typel 数据 。 
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图 9.58 ”Ward 联结 法 聚 类 分 析 typel 数据 


在 图 9.58 中 ， 可 以 看 到 所 有 的 观测 样本 被 分 为 4 类 : 其 中 ， 浙 江 被 分 到 第 3 类 ， 上 海 、 
北京 为 第 1 类， 天津 、 江 苏 、 福 建 、 广 东 、 云 南 为 第 2 类 ， 其 他 省 市 为 第 4 类 。 第 3 类 的 特征 
是 经 营 净 收 入 、 财 产 性 收入 高 ; 第 1 类 的 特征 是 工薪 收入 、 转 移 性 收入 高 ; 第 2 类 的 特征 是 收 
入 水 平 普遍 较 高 ; 第 4 类 的 特征 是 收入 水 平 普遍 偏 低 。 

9.59 展示 的 是 设 定 聚 类 数 为 2， 然后 进行 分 析 的 结果 。 在 输入 第 2 条 Stata 命令 并 且 分 
别 按键 盘 上 的 回 车 键 进行 确认 后 ， 选 择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 
进入 数据 查看 界面 ， 可 以 看 到 如 图 9.59 所 示 的 type2 数据 。 
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9.59 ”Ward 联结 法 聚 类 分 析 type2 数据 


在 图 9.59 中 ， 可 以 看 到 所 有 的 观测 样本 被 分 为 两 类 : 其 中 ， 浙 江 、 北 京 、 天 津 、 上 海 、 
江苏 、 福建、 广东 、 云 南 被 分 到 第 1 类 ， 其 他 省 市 为 第 2 类 。 第 1 类 的 特征 是 各 类 收入 普遍 较 
高 ， 第 2 类 的 特征 是 各 类 收入 普遍 较 低 。 
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9.3 ”本 章 习题 
(1) 表 9.4 是 美国 22 家 公共 团体 的 数据 。 其 中 ，1 代表 该 团体 使 用 了 核能 源 ，0 代表 没 
有 使 用 。 试 利用 划分 聚 类 分 析 方 法 观测 这 两 类 企业 所 属 类 别 的 情况 。 
表 9.4 美国 22 家 公共 团体 统计 表 
固定 支出 综 | 资产 收益 | 每 千瓦 容量 成 本 | 每 年 使 用 的 能 源 | 是 否 使 用 


编 | 公司 

生 合龙 % | 率 % | /美元 /万 千瓦 时 核能 源 
亚 利 对 对 公共 服 

1 务 公司 四 1.06 9.2 351 9077 0 

| 波士顿 相 台 主公 ee 


司 


21 _| 联合 装饰 公司 6650 0 
维 吉 尼 亚 电力 公 


司 


(2) 表 9.5 是 我 国 2006 年 各 地 区 的 能 源 消耗 情况 。 试 用 层次 聚 类 分 析 方法 了 解 我 国 不 同 
地 区 的 能 源 消 耗 情况 。 
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表 9.5 2006 年 各 地 区 能 源 消耗 统计 表 


地 区 单位 地 区 生产 总 值 煤 消 | 单位 地 区 生产 总 值 电 消 | 单位 工业 增加 值 煤 消耗 
耗 量 / 吨 耗 量 /千瓦 时 量 / 吨 


新 疆 


2.11 1190.9 3.00 
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第 10 章 stata 最 小 二 乘 线性 回归 分 析 


回归 分 析 是 经 典 的 数据 分 析 方法 之 一 ， 应 用 范围 非常 广泛 ， 深 受 学 者 们 的 喜爱 。 它 是 研 
究 分 析 某 一 变量 受到 其 他 变量 影响 的 分 析 方 法 , 的 基本 思想 是 以 被 影响 变量 为 因 变 量 , 以 影响 
变量 为 自 变量 , 研究 因 变量 与 自 变量 之 间 的 因果 关系 。 本章 主要 介绍 最 简单 也 最 常用 的 最 小 二 
乘 线性 回归 分 析 方 法 〈 包 括 简单 线性 回归 、 多 重 线性 回归 等 ) 在 具体 实例 中 的 应 用 。 


10.1 实例 简单 线性 回归 分 析 


10.1.1 简单 线性 回归 分 析 的 功能 与 意义 


Stata 的 简单 线性 回归 分 析 也 称 一 元 线性 回归 分 析 ， 是 最 简单 也 是 最 基本 的 一 种 回归 分 析 
方法 。 简 单线 性 回归 分 析 的 特色 是 只 涉及 一 个 自 变量 , 主要 用 来 处 理 一 个 因 变 量 与 一 个 自 变量 
之 间 的 线性 关系 ， 建 立 变量 之 间 的 线性 模型 并 根据 模型 进行 评价 和 预测 。 


10.1.2 ”相关 数据 来 源 


下 载 资源 :\video\chap10\… 


下 载 资源 :\sample\chap10\ 案 例 10.1.dta 


【 例 10.1】 菲利普 斯 曲线 表明 ， 失 业 率 和 通货 膨胀 率 之 间 存 在 着 百代 关系 。 表 10.1 给 出 
了 我 国 1998 一 2007 年 的 通货 膨胀 率 和 城镇 登记 失业 率 。 试 用 简单 回归 分 析 方 法 研究 这 种 替代 
关系 在 我 国 是 否 存在 。 


表 10.1 我 国 1998 一 2007 年 的 通货 膨胀 率 和 城镇 登记 失业 率 〈 单 位 : %) 
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10.1.3 ”Stata 分 析 过 程 


在 利用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 3 个 变量 ， 分 别 为 
年 份 、 通货 膨胀 率 、 失 业 率 。 我 们 把 年 份 变量 设 定 为 year， 把 通货 膨胀 率 变量 设 定 为 inflation， 
把 失业 率 变量 设 定 为 unwork， 变 量 类 型 及 长 度 采取 系统 默认 方式 ， 然 后 录入 相关 数据 。 相 关 
操作 我 们 在 第 1 章 中 已 有 详细 讲述 。 录 入 完成 后 数据 如 图 10.1 所 示 。 
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图 10.1 案例 10.1 数据 
先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 骤 如 下 : 


加 进入 Stata 14.0， 打 开 相 关 数 据 文 件 ， 弹 出 主 界面 。 
加 在 主 界面 的 “Command” 文 本 框 中 输入 如 下 命令 。 


。 summarize year inflation unwork,detail: 本 命令 的 含义 是 对 年 份 、 通 货 膨 胀 率 、 失 业 
率 变量 进行 详细 描述 性 分 析 。 

。 correlate year inflation unwork: 本 命令 的 含义 是 对 年 份 、 通 货 膨 胀 率 、 失 业 率 变量 进 
行 相关 性 分 析 。 

。 regress unwork inflation: 本 命令 的 含义 是 对 年 份 、 通 货 膨 胀 率 、 失 业 率 变量 进行 简单 
线性 回归 分 析 。 

日 vce: 本 命令 的 含义 是 获得 参与 回归 的 各 自 变 量 的 系数 以 及 常数 项 的 方差 - 协 方差 甜 
阵 。 

。 test inflation=0: 本 命令 的 含义 是 检验 变量 通货 膨胀 率 的 系数 是 否 显著 。 

。 ”predict yhat: 本 命令 旨 在 对 因 变 量 的 拟 合 值 进行 预测 。 

。 predict exresid: 本 命令 旨 在 获得 回归 后 的 残 差 序列 


加 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


10.1.4 结果 分 析 


在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 10.2~ 图 10.8 所 示 的 分 析 结 果 。 
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图 10.2 是 对 数据 进行 描述 性 分 析 的 结果 。 关 于 这 一 分 析 已 在 前 面 的 章节 中 详细 介绍 过 ， 
这 里 不 再 缆 述 。 在 回归 分 析 中 ,通过 本 步 操作 可 以 从 整体 上 了 解数 据 的 一 般 特征 。 本 步骤 的 操 
作 是 非常 有 必要 的 ， 因 为 有 些 时 候 数据 可 能 会 存在 某 些 异 常 值 (非常 大 或 者 非常 小 ) ， 也 有 些 
时 候 各 个 变量 间 的 量 纲 差距 过 大 ， 例 如 某 个 变量 是 几 百 万 ， 同 时 另 一 个 变量 是 零点 几 ， 那么 系 
统 有 可 能 会 把 小 变量 忽略 掉 ， 这 些 都 会 严重 影响 数据 的 回归 分 析 结 果 。 


[sarize year INETSETORN mork,detaiT 


year 

Percenciles smalleac 

1% 1998 1998 

ss 1590 1999 
os 1998.5 2000 obs 10 
ss 2000 2001 Sum of Vac. 10 
os 2002.5 Nean 2002.5 
Largest Std. Dev. 3.02765 

5 2005 2004 
os 2006.5 2005 Variance 9.166667 
5 2007 2006 Skevness o 
9s 2007 2007 Kurtosis 1.775758 

inflation 

Percentiles Smallest 

1s 1 -1.41 

5% 1.41 -B84 
os -1.125 .77 obs 10 
ss = 26 Sum of Wat. 10 
os .8 mean 工 .078 
Largest Std. Dev. 2.011886 

ss .82 1.46 
os 32 1.82 Variance 4.047684 
ss #75 3.99 Skevness 613555 
9 75 4.75 Kurtosis 2.326643 

nvorke 

Percentiles Smallest 

1 3.1 3.1 

Ss Bi 3.1 
os 3.1 3.1 obs 10 
Ss 3.1 3.6 Sum of War. 10 
0s 4 Nean ER 
Largest Std. Dev. .498999 

ss 4.2 a. 
os 4.25 4.2 Variance 249 
Ss 4.3 4.2 Skevness ~.5081105 
9 4.3 .3 Kurtosis 1.533439 


图 10.2 ”描述 性 分 析 的 结果 


在 如 图 10.2 所 示 的 分 析 结 果 中 ， 可 以 得 到 很 多 信息 ， 包 括 百 分 位 数 、4 个 最 小 值 、4 个 最 
大 值 、 平 均值 、 标 准 差 、 偏 度 、 峰 度 等 。 


(1) 百 分 位 数 (Percentiles ) 

可 以 看 出 变量 year 的 第 1 个 四 分 位 数 (25%) 是 2000, 第 2 个 四 分 位 数 (50%) 是 2002.5， 
第 3 个 四 分 位 数 (75%) 是 2005; 变量 inflation 的 第 1 个 四 分 位 数 (25%) 是 -0.77， 第 2 个 四 
分 位 数 (50%) 是 0.81, 第 3 个 四 分 位 数 (75%) 是 1.82; 变量 unwork 的 第 1 个 四 分 位 数 (25%) 
是 3.1， 第 2 个 四 分 位 数 (50%) 是 4， 第 3 个 四 分 位 数 (75%) 是 4.2。 


(2) 4 个 最 小 值 (Smallest ) 
变量 year 最 小 的 4 个 数据 值 分 别 是 1998、1999、2000、2001 
变量 inflation 最 小 的 4 个 数据 值 分 别 是 -1.41、-0.84、-0.77、0.26。 
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变量 unwork 最 小 的 4 个 数据 值 分 别 是 3.1、3.1、3.1、3.6。 


(3) 4 个 最 大 值 (Largest ) 
变量 year 最 大 的 4 个 数据 值 分 别 是 2004、2005、2006、2007。 
变量 inflation 最 大 的 4 个 数据 值 分 别 是 1.46、1.82、3.89、4.75。 
变量 unwork 最 大 的 4 个 数据 值 分 别 是 4.1、4.2、4.2、4.3。 


(4) 平均 值 (Mean ) 和 标准 差 (Std. Dev ) 
变量 year 的 平均 值 为 2002.5， 标 准 差 是 3.02765 。 
变量 inflation 的 平均 值 为 1.078， 标 准 差 是 2.011886。 
变量 unwork 的 平均 值 为 3.77， 标 准 差 是 0.498999。 


(5) 偏 度 (Skewness) 和 峰 度 (Kurtosis ) 

变量 year 的 偏 度 为 0， 为 无 偏 度 。 

变量 inflation 的 偏 度 为 0.613555， 为 正 偏 度 但 不 大 。 

变量 unwork 的 偏 度 为 -0.5081105， 为 负 偏 度 但 不 大 。 

变量 year 的 峰 度 为 1.775758， 有 一 个 比 正 态 分 布 更 短 的 尾巴 。 

变量 inflation 的 峰 度 为 2.326643， 有 一 个 比 正 态 分 布 更 短 的 尾巴 。 

变量 unwork 的 峰 度 为 1.533439， 有 一 个 比 正 态 分 布 更 短 的 尾巴 。 

综 上 所 述 ， 数 据 的 总 体质 量 还 是 可 以 的 ， 没 有 极端 异常 值 ， 变 量 间 的 量 纲 差距 、 变 量 的 
偏 度 、 峰 度 也 是 可 以 接受 的 ， 可 以 进入 下 一 步 的 分 析 。 

2. 对 数据 进行 相关 性 分 析 的 结果 

图 10.3 是 对 数据 进行 相关 性 分 析 的 结果 。 关 于 这 一 分 析 我 们 在 前 面 的 章节 中 已 详细 介绍 
过 , 这 里 不 再 装 述 。 相 关 分 析 是 回归 分 析 中 非常 重要 的 一 部 分 ， 因为 回归 分 析 的 本 意 就 是 研究 
自 变量 对 因 变 量 的 影响 关系 , 如 果 参 与 回归 分 析 的 变量 本 身 就 是 不 相关 的 , 那么 回归 分 析 就 会 
失去 意义 。 如 果 通 过 回归 分 析 探 索 出 变量 之 间 存 在 着 一 定 关系 , 那么 这 种 关系 也 未 必 是 真实 的 ， 
它 有 可 能 仅仅 是 由 于 数据 特征 的 某 种 巧合 而 拟 合 出 了 回归 模型 。 综 上 所 述 , 变量 之 间 存 在 相关 
关系 是 进行 回归 分 析 的 必要 前 提 。 


+ correlate year inflation unwork 


inflation 0.8247 1.0000 
unwork 0.8347 0.6333 1.0000 


图 10.3 ”相关 性 分 析 的 结果 
在 图 10.3 中 ， 变 量 通货 膨胀 率 和 失业 率 之 间 的 相关 系数 是 0.6333， 这 说 明 两 个 变量 之 间 
存在 较 强 的 正 相 关 关 系 ， 所 以 我 们 可 以 进行 回归 分 析 。 
3. 对 数据 进行 回归 分 析 的 结果 
图 10.4 是 对 数据 进行 回归 分 析 的 结果 。 
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. regress unwork inflation 

Source SS df ns Number of obs = 10 
Fy 8)= 5.36 

Nodel .898891486 1 .898891486 Prob > 了 = 0.0493 
Residual | 1.34210851 8 .167763564 R-squared = 0.4011 
adj R-squared = 0.3263 

Tocal 2.241 9 .249 Root MSE = .40959 
unwork Coef. Std. Err. t Pp>ltl [95* Conf. Interval] 
inflation .157083 .0678616 2.31 0.049 .0005938 .3135721 
_cons 3.600665 .1487548 -24.21 0.000 3.257635 3.943694 


图 10.4 回归 分 析 的 结果 


从 上 述 分 析 结果 中 可 以 得 到 很 多 信息 。 可 以 看 出 共有 10 个 样本 参与 了 分 析 ， 模 型 的 F 值 
(1, 8) = 5.36, P 值 (Prob > F) = 0.0493， 说 明 模型 整体 上 是 非常 显著 的 。 模 型 的 可 决 系数 
(R-squared) 为 0.4011， 模 型 修正 的 可 决 系数 (Adj R-squared) = 0.3263， 说 明 模 型 的 解释 能 
力 还 是 差强人意 的 。 

模型 的 回归 方程 是 : 


unwork=0.157083*inflation+3.600665 


变量 inflation 的 系数 标准 误 是 0.0678616, t 值 为 2.31, P 值 为 0.049， 系 数 是 非常 显著 的 ， 
95% 的 置信 区 间 为 [0.0005938,0.3135721]。 常 数 项 的 系数 标准 误 是 0.1487548，t 值 为 24.21，P 
值 为 0.000， 系 数 也 是 非常 显著 的 ，95% 的 置信 区 间 为 [3.257635,3.943694]。 

从 上 面 的 分 析 可 以 看 出 通货 膨胀 率 和 失业 率 之 间 是 一 种 正 向 联动 变化 关系 ， 通 货 膨 胀 率 
每 增加 一 点 ， 失 业 率 就 增加 0.157 点 。 通 货 膨 胀 和 失业 的 替代 关系 在 我 国 并 不 存在 。 

4. 变量 的 方差 - 协 方差 矩阵 

图 10.5 是 变量 的 方差 - 协 方差 矩阵 。 


vee 


Covariance matrix of coefficients of regress model 


elV) | inflation _cons 


inflation .0046052 
_cons | -.00496441 .02212799 


10.5 变量 的 方差 - 协 方差 矩阵 
从 图 10.5 中 可 以 看 出 ， 变 量 的 方差 与 协 方差 都 不 是 很 大 。 
5. 对 变量 系数 的 假设 检验 结果 
图 10.6 是 对 变量 系数 的 假设 检验 结果 。 


-test inflation 


(1 inflation=0 


7( 1 8)= 5.36 
Prob > F = 0.0493 


图 10.6 ”对 变量 系数 的 假设 检验 结果 
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6. 对 因 变量 的 拟 合 值 的 预测 
图 10.7 是 对 因 变 量 的 拟 合 值 的 预测 。 


year nflarton umwork yar 


3998 -4 3 


3 408745 
3 


上 


区 
1 
2 

.6 
97 
3 
2 
2 
1 


3 2006 1.46 
ao 2007 75 346808 


图 10.7 对 因 变量 的 拟 合 值 的 预测 


因 变量 预测 拟 合 值 是 根据 自 变量 的 值 和 得 到 的 回归 方程 计算 出 来 的 ， 主 要 用 于 预测 未 来 。 
在 图 10.7 中 ， 可 以 看 到 yhat 的 值 与 unwork 的 值 是 比较 相近 的 ， 所 以 拟 合 的 回归 模型 还 是 不 
错 的 。 关 于 预测 未 来 的 作用 将 在 案例 延伸 部 分 进行 详细 说 明 。 

7. 回归 分 析 得 到 的 残 差 序 列 

图 10.8 是 回归 分 析 得 到 的 残 差 序列 。 


yesr 1nmaclon umwork ya 日 


19%8 4 3 400735 [F7687142 
1999 -41 1 3.379178 上 和 
2000 ‘26 3 3.641506 OO 


2001 .46 3.6 3.672923 [007298227 
2002 -.77 77 
2008 46 3.7402803 0 


Seoevewaevwwn 


3 
200¢ 3.09 7 
2005 1 4 555 ig 
2006 1.46 .2.50006 O00 
3 2007 a75 4 4.10008 geome 


图 10.8 ” 残 差 序 列 


残 差 序列 是 很 有 用 处 的 。 例 如 ， 它 可 以 用 来 检验 变量 是 否 存在 异 方差 ， 也 可 以 用 来 检验 
变量 间 是 否 存在 协 整 关系 等 。 在 后 续 章 节 中 将 会 进行 详细 说 明 ， 这 里 不 再 资 述 。 


10.1.5 “案例 延伸 
上 述 的 Stata 命令 比较 简洁 ， 分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 


1. 延伸 1: 在 回归 方程 中 不 包含 常数 项 
以 本 例 为 例 进行 说 明 ， 回 归 分 析 操作 命令 可 以 相应 地 修改 为 : 


regress Unwork inflation, nocon 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 10.9 所 示 。 
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Coef. Sto. Err. t Plt I95% Conf. Interval] 


9648907 .43799959 2.01 0.075 。 -.1209354 2.050717 


图 10.9 延伸 1 分 析 结果 图 


从 上 述 分 析 结果 中 ， 模 型 的 F 值 下 降 为 4.04, P 值 (Prob > F) 上升 为 0.0753， 说 明 模 型 
整体 的 显著 程度 有 所 下 降 。 模 型 的 可 决 系数 (R-squared) 下 降 为 0.3099， 模 型 修正 的 可 决 系 
数 (Adj R-squared) 下 降 为 0.2332。 

模型 的 回归 方程 变 为 : 

unwork=0.9648907*inflation 


变量 inflation 的 系数 标准 误 是 0.4799959，t 值 为 2.01，P 值 为 0.075， 系 数 的 显著 程度 有 
所 下 降 ，95% 的 置信 区 间 为 [-0.1209354, 2.050717]。 

从 上 面 的 分 析 可 以 看 出 不 包含 常数 项 的 回归 方程 不 论 是 在 模型 整体 的 显著 程度 、 变 量 系 
数 的 显著 程度 还 是 在 模型 的 解释 能 力 上 都 较 包 含 常 数 项 的 回归 方程 有 所 下 降 。 

2. 延伸 2: 限定 参与 回归 的 样本 范围 

以 本 例 为 例 进行 说 明 ， 例 如 我 们 只 对 2000 年 以 后 的 样本 进行 回归 分 析 ， 操 作 命令 可 以 相 
应 地 修改 为 : 


regress unwork inflation if year>=2000 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 10.10 所 示 。 


，regreaa umwork inflation it ycar>-2000 


ss 号 


.171132798 -71192798 
-947597202 157932067 


41.11875 .159821429 


Coef. Sta, Ecr. | [sss Conz. Incerval] 
inzlarion | .0842132 ,0808955 1.04 0.338 -113731 .2821574 
= | 2M00338 .1996186 19.73 0.000 3.399017 4.271659 


图 10.10 延伸 2 分 析 结 果 图 
关于 结果 的 分 析 与 前 面 类 似 ， 限 于 篇 幅 ， 这 里 不 再 袭 述 。 
3. 延伸 3: 关于 回归 预测 


以 本 例 为 例 进行 说 明 ， 例 如 将 年 份 扩展 至 2007 年 ， 假 定 该 年 的 通货 膨胀 率 为 5%， 把 样 
本 数据 输入 到 数据 文件 中 ， 然 后 进行 预测 ， 操 作 命令 如 下 : 


predict yyhat 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 10.11 所 示 。 
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\\A\\ 
year 1nflarion unwork yynar 
4 2001 ,46 3.6 3.839076 
日 2002 77 4 3.735494 
6 2003 13 4.3 3.898025 
7 2004 2,89 4.2 4.327327 
外 2005 1.82 4.2 3.953606 
3 2006 1.46 4.1 3.923289 
10 2007 4.75 4 4.20035 
1 2008 5 FE 


图 10.11 描述 性 分 析 的 结果 


可 以 看 到 在 图 10.11 中 出 现 了 预测 的 因 变量 数据 ， 即 在 通货 膨胀 率 为 5% 时 ， 预 测 的 失业 
率 将 会 是 4.221404%。 


10.2 ”实例 二 一 一 多 重 线性 回归 分 析 


10.2.1 多重 线 性 回归 分 析 的 功能 与 意义 


Stata 的 多 重 线 性 回归 分 析 也 称 多 元 线性 回归 分 析 ， 是 最 为 常用 的 一 种 回归 分 析 
(Regression) 方法 。 多 重 线性 回归 分 析 涉 及 多 个 自 变 量 ， 用 来 处 理 一 个 因 变量 与 多 个 自 变量 
之 间 的 线性 关系 ， 建 立 变量 之 间 的 线性 模型 并 根据 模型 进行 评价 和 预测 。 


UP 


下 载 资源 :\video\chap10\… 


下 载 资源 :\sample\chap10\ 案 例 10.2.dta 


【 例 10.2】 为 了 检验 美国 电力 行业 是 否 存在 规模 经 济 ，Nerlove (1963) 收集 了 1955 年 
145 家 美国 电力 企业 的 总 成 本 (TC) 、 产 量 (Q) 、 工 资 率 (PL) 、 燃 料 价格 〈(PF) 及 资本 
租赁 价格 (PK) 的 数据 ， 如 表 10.2 所 示 。 试 以 总 成 本 为 因 变量 ， 以 产量 、 工 资 率 、 燃 料 价格 
和 资本 租赁 价格 为 自 变量 ， 利 用 多 重 回 归 分 析 方 法 研究 其 间 的 关系 。 


表 10.2 美国 电力 企业 相关 数据 


| 16719 
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10.2.3 ”Stata 分 析 过 程 


在 利用 Stata 进行 分 析 之 前 ， 要 把 数据 录入 到 Stata 中 。 本 例 中 有 5 个 变量 ， 分 别 是 总 成 本 
(TC) 、 产 量 (Q) 、 工 资 率 (PL) 、 燃 料 价格 〈(PF) 及 资本 租赁 价格 (PK) 。 把 变量 类 型 及 
长 度 设 定 为 系统 默认 方式 ,然后 录入 相关 数据 。 相 关 操作 在 第 1 章 中 已 有 详细 讲述 ， 这 里 不 再 
效 述 。 录 入 完成 后 数据 如 图 10.12 所 示 。 

先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 又 如 下 : 


进入 Stata 14.0， 打 开 相关 数据 文件 ， 弹 出 主 界面 。 
在 主 界面 的 “Command” 文 本 框 中 输入 如 下 命令 。 


summarize TC Q PL PF PK,detail: 本 命令 的 含义 是 对 总 成 本 (TC)、 产 量 (Q)、 工 
资 率 (PL )、 燃 料 价 格 (PF ) 及 资本 租赁 价格 (PK ) 变量 进行 详细 描述 性 分 析 。 
correlate TC Q PL PF PK: 本 命令 的 含义 是 对 总 成 本 (TC)、 产 量 (Q)、 工 资 率 (PL)、 
燃料 价格 (PF ) 及 资本 租赁 价格 (PK ) 变量 进行 相关 性 分 析 。 

regress TC QPL PF PK: 本 命令 的 含义 是 对 总 成 本 (TC )、 产 量 (Q )、 工 资 率 ( PL)、 
燃料 价格 (PF ) 及 资本 租赁 价格 (PK ) 变量 进行 多 重 线性 回归 分 析 。 

Vce: 本 命令 的 含义 是 获得 参与 回归 的 各 自 变量 的 系数 以 及 常数 项 的 方差 - 协 方差 矩 
阵 。 
test Q PL PF PK: 本 命令 的 含义 是 检验 各 自 变 量 系数 的 联合 显著 性 。 

predict yhat: 本 命令 旨 在 对 因 变 量 的 拟 合 值 进行 预测 。 

predict e,resid: 本 命令 旨 在 获得 回归 后 的 残 差 序列 。 

regress TC Q PL PF: 本 命令 的 含义 是 对 总 成 本 (TC )、 产 量 (Q )、 工 资 率 (PL )、 燃 
料 价格 (PF ) 等 变量 进行 多 重 线性 回归 分 析 。 


加 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


DD oam Editor (Edit) - E102.dta] OO OO 
Fle Edit View Data Tools 
写 回 业 扣 加 上 了 。 
TcD .082 
a 3 于 加 varables 
BC a| > 7 59。 A Fitervariables here 
- pa BName Label 
PTC 
s :3 eBQ 
s os pL 
? 9 PF 
日 了 己 PK 
二 2 Variables [Sapaho| | 
四 的 Properties 可 
四 交 日 Variables 
ia 2 Name Tc 
四 sor Label 
本 Type double 
过 A Format %100g 
2 2, Value label 
加 一 Nores 
， Dats 
Ready Vars:5 order Dataset Obs:145 Filter:Off Mode;Edit CAP NUM a| 


10.12 案例 10.2 数据 
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10.2.4 结果 分 析 


在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 10.13~ 图 10.20 所 示 的 分 析 结 果 。 
1. 对 数据 进行 描述 性 分 析 的 结果 


图 10.13 是 对 数据 进行 描述 性 分 析 的 结果 。 关 于 这 一 分 析 过 程 对 于 回归 分 析 的 重要 意义 在 


上 节 已 经 论述 过 ， 此 处 不 再 重复 讲解 。 


Percentiles 
1.45 
1.55 
1.68 cbs 145 
1.76 Sum of Wgt. 145 
2.04 ean 1.972069 
Std, Dev. +2368072 
2.19 
2.3 Variance .0560776 
2.31 Skevness ~.2539563 
TC QU PL PE PK,detail 2.32 Kurtosis 1.974824 
Percentiles Percentiles 
.098 10.3 
501 10.3 
.705 obs 145 12.9 cbs 145 
2.382 Sum of Wgt. 145 21.3 Sum of Wgt. 145 
6.754 Nean 12.9761 26.9 Mean 26.17655 
Std. Dev. 19.79458 Std, Dev. 7.876071 
14.132 32.2 
32.318 Variance 391.8253 35.1 Variance 62.0325 
44,894 Skevness 3.636095 36.2 Skewness ~.3328658 
119.939 Kurtosis 19.66927 42,8 Kurtosis 2,641048 
Percentiles Percentiles 
143 
155 
obs 145 157 Cbs 145 
Sum of Wgt. 145 162 Sum of Vat. 145 
Nean 2133.083 170 Nean 174.4966 
Std. Dev. 2931.942 Std, Dev. 18.20948 
183 
Variance 8596285 202 Variance 331.5851 
Skewness 2.398202 212 Skewness .9992943 
Kurtosis 9.474916 227 Kurtosis 3.772226 


图 10.13 ”描述 性 分 析 的 结果 


在 如 图 10.13 所 示 的 分 析 结 果 中 ， 可 以 得 到 很 多 信息 ， 包 括 百 分 位 数 、4 个 最 小 值 、4 个 
最 大 值 、 平 均值 、 标 准 差 、 偏 度 、 峰 度 等 。 


(1) 百 分 位 数 (Percentiles ) 
可 以 看 出 变量 TC 的 第 1 个 四 分 位 数 (25%) 是 2.382， 第 2 个 四 分 位 数 (50%) 是 6.754， 
第 3 个 四 分 位 数 (75%) 是 14.132; 变量 Q 的 第 1 个 四 分 位 数 (25%) 是 279， 第 2 个 四 分 位 
数 (50%) 是 1109， 第 3 个 四 分 位 数 (75%) 是 2507; 变量 PL 的 第 1 个 四 分 位 数 (25%) 是 
1.76， 第 2 个 四 分 位 数 (50%) 是 2.04， 第 3 个 四 分 位 数 (75%) 是 2.19; 变量 PF 的 第 1 个 
四 分 位 数 (25%) 是 21.3， 第 2 个 四 分 位 数 (50%) 是 26.9， 第 3 个 四 分 位 数 (75%) 是 32.2; 
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变量 PK 的 第 1 个 四 分 位 数 (25%) 是 162， 第 2 个 四 分 位 数 (50%) 是 170, 第 3 个 四 分 位 数 
(75%) 是 183。 


(2) 4 个 最 小 值 (Smallest ) 
变量 TC 最 小 的 4 个 数据 值 分 别 是 0.082、0.098、0.197、0.315。 
变量 Q 最 小 的 4 个 数据 值 分 别 是 2、3、4、4。 
变量 PL 最 小 的 4 个 数据 值 分 别 是 1.45、1.45、1.52、1.52。 
变量 PF 最 小 的 4 个 数据 值 分 别 是 10.3、10.3、10.3、10.3。 
变量 PK 最 小 的 4 个 数据 值 分 别 是 138、143、144、148。 


(3) 4 个 最 大 值 (Largest) 
变量 TC 最 大 的 4 个 数据 值 分 别 是 69.878、73.05、119.939、139.422。 
变量 Q 最 大 的 4 个 数据 值 分 别 是 11477、11796、14359、16719。 
变量 PL 最 大 的 4 个 数据 值 分 别 是 2.32、2.32、2.32、2.32。 
变量 PF 最 大 的 4 个 数据 值 分 别 是 39.7、42.8、42.8、42.8。 
变量 PK 最 大 的 4 个 数据 值 分 别 是 225、225、227、233。 


(4) 平均 值 (Mean ) 和 标准 差 (Std. Dev) 

变量 TC 的 平均 值 为 12.9761， 标 准 差 是 19.79458。 
变量 Q 的 平均 值 为 2133.083， 标 准 差 是 2931.942。 
变量 PL 的 平均 值 为 1.972069， 标 准 差 是 0.2368072。 
变量 PF 的 平均 值 为 26.17655， 标 准 差 是 7.876071。 
变量 PK 的 平均 值 为 174.4966， 标 准 差 是 18.20948。 


(5) 偏 度 ( Skewness ) 和 峰 度 (Kurtosis ) 

变量 TC 的 偏 度 为 3.636095， 为 正 偏 度 但 不 大 
变量 Q 的 偏 度 为 2.398202， 为 正 偏 度 但 不 大 。 
变量 PL 的 偏 度 为 -0.2539563， 为 负 偏 度 但 不 大 。 
变量 PF 的 偏 度 为 -0.3328658， 为 负 偏 度 但 不 大 。 
变量 PK 的 偏 度 为 0.9992943， 为 正 偏 度 但 不 大 。 
变量 TC 的 峰 度 为 19.66927， 有 一 个 比 正 态 分 布 更 长 的 尾巴 。 
变量 Q 的 峰 度 为 9.474916， 有 一 个 比 正 态 分 布 更 长 的 尾巴 。 
变量 PL 的 峰 度 为 1.974824， 有 一 个 比 正 态 分 布 更 短 的 尾巴 。 
变量 PF 的 峰 度 为 2.641048， 有 一 个 比 正 态 分 布 更 短 的 尾巴 。 
变量 PK 的 峰 度 为 3.772226， 有 一 个 比 正 态 分 布 略 长 的 尾巴 。 


综 上 所 述 ， a er 没有 极端 异常 值 ， 变 量 间 的 量 纲 差距 、 变 量 的 
偏 度 、 峰 度 也 是 可 以 接受 的 ， 可 以 进入 下 一 步 的 分 析 。 
2. 对 数据 进行 相关 性 分 析 的 结果 


图 10.14 是 对 数据 进行 相关 性 分 析 的 结果 。 关 于 这 一 分 析 过 程 对 于 回归 分 析 的 重要 意义 在 
上 节 已 经 论述 过 ， 此 处 不 再 重复 讲解 。 
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+ correlate TC 0 PL PF PK 
(obs=145) 


1.0000 
0.9525 1.0000 

0.2513 0.1714 1.0000 

0.0339 -0.0773 0.3137 1.0000 


0.0272 0.0029 -0.1781 0.1254 


图 10.14 ”相关 性 分 析 的 结果 
在 图 10.14 中 ，TC 与 各 个 自 变量 之 间 的 相关 关系 还 是 可 以 接受 的 ， 可 以 进行 下 面 的 回归 
3。. 对 数据 进行 回归 分 析 的 结果 
图 10.15 是 对 数据 进行 回归 分 析 的 结果 。 


.regress TC 0 PL PF PK 


Source 55 df E93 Number of ohs = 145 
F( 4 140) - 410.12 

Nodel | 52064.6433 4 13016.1608 Prob > 下 = 0.0000 
Residual | 4358.19481 140 。 31.129963 R-squared = = 09.9226 
Adj R-aqnared = 90.9206 

Tocal | 56422.8381 144 391.825265 Roor ASE = 5.5794 
Tc Conf. Std. grr. ce pylael [gss conz。Tnrerva 

Qa .0063951 .0001629 。 39.26 0.000 .906073 。 .0067171 

pL | 5.655183 2.17536 2.60 0.010 1.352402 。 9.957964 

pF 20784 .0640999 3.24 0.001 081111 334569 

PE .0284415 .0265049 1.07 0.285  -,0239601 .0808431 
cons | -22.22098 6.58745 -3.37 0.001 -35.24472 -9.197235 


图 10.15 ”回归 分 析 的 结果 


从 上 述 分 析 结 果 中 ， 可 以 得 到 很 多 信息 。 可 以 看 出 共有 145 个 样本 参与 了 分 析 ， 模 型 的 F 
值 (4, 140) = 418.12，P 值 (Prob > F) = 0.0000， 说 明 模 型 整体 上 是 非常 显著 的 。 模 型 的 可 决 系 
数 (CR-squared) = 0.9228， 模 型 修正 的 可 决 系数 (Adj R-squared) = 0.9206， 说 明 模 型 的 解释 
能 力 还 是 差强人意 的 。 

变量 Q 的 系数 标准 误 是 0.0001629, t 值 为 39.26, P 值 为 0.000， 系数 是 非常 显著 的 ，95% 
的 置信 区 间 为 [0.006073, 0.0067171]。 变 量 PL 的 系数 标准 误 是 2.17636,t 值 为 2.60,P 值 为 0.010， 
系数 是 非常 显著 的 ，95% 的 置信 区 间 为 [1.352402，9.957964] 。 变 量 PF 的 系数 标准 误 是 
0.0640999，t 值 为 3.24，P 值 为 0.001， 系 数 是 非常 显著 的 ，95% 的 置信 区 间 为 [0.081111， 
0.334569]。 变 量 PK 的 系数 标准 误 是 0.0265049，t 值 为 1.07，P 值 为 0.285， 系 数 是 非常 不 显 
著 的 , 95% 的 置信 区 间 为 [-0.0239601, 0.0808431]。 常数 项 的 系数 标准 误 是 6.58745, t 值 为 -3.37， 
P 值 为 0.001， 系 数 也 是 非常 显著 的 ，95% 的 置信 区 间 为 [-35.24472, -9.197235] 。 

模型 的 回归 方程 是 : 


TC=0.0063951*Q+ 5.655183*PL+0.20784*PF+0.0284415*PK -22.22098 


从 上 面 的 分 析 可 以 看 出 美国 电力 企业 的 总 成 本 〈TC) 受到 产量 (Q) 、 工 资 率 (PL) 、 
燃料 价格 (PF) 及 资本 租赁 价格 (PK) 的 影响 ， 美 国电 力行 业 存在 规模 经 济 。 
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4. 对 变量 的 方差 - 协 方差 矩阵 
图 10.16 是 对 变量 的 方差 - 协 方差 矩阵 。 


Covariance marrix of coefficients of regress model 


ev | Qo PL Pr 


Q | 2.654e-08 
PL | -.0000764 4.7365431 

PF | 1.564e-06 -.0508677 .0041088 

PK | -2.741e-07 .01376813 -.00034147 .00070251 

_cons | .00010096 -10.248761 .04900993 -.14021374 43.394499 


图 10.16 ”变量 的 方差 - 协 方差 矩阵 
从 图 10.16 中 可 以 看 出 ， 变 量 的 方差 与 协 方差 都 不 是 很 大 ， 有 些 甚 至 是 微不足道 的 。 
5. 对 变量 系数 的 假设 检验 结果 
图 10.17 是 对 变量 系数 的 假设 检验 结果 。 


test QPL PF PK 


0=0 
pL=0 
PE -日 
PK = 日 


Fl 4， 140) = 418.12 
Prob >F = 0.0000 


图 10.17 对 变量 系数 的 假设 检验 结果 
从 图 10.17 中 可 以 看 出 ， 模 型 非常 显著 ， 在 5% 的 显著 性 水 平 上 通过 了 检验 。 


6. 对 因 变 量 的 拟 合 值 的 预测 
图 10.18 是 对 因 变 量 的 拟 合 值 的 预测 。 


下 a mn m pm yhat 
1 -00 09 317.9 3 [463724 
2 .661 3 2.05 23. 7 
59 4 .05 5 271 0 
4 ns * 2 了 6 
197 $ EE EX 2 
‘ os 3 了 E73 9 sse 
7 9 a 2 和 5. 0 
6 3 2.0% 23. 150 由本 二 
S25 3 2.19 3 155 e708s4 
20 So 2 33 15 8 
1 3194 2 2.09 37.9 0 reon 
7 25 es 39.7 1 405845 
3 349 下 0 ER 2 ime 
1 7 39 33 .6 164 6007806 
15 sol 日 75 2 170 7 
让 于 0 76 10.3 20 ey 
了 好 7 - 1 35.5 0 0 
0 a 3 EE 0 64508 
地 70% « 2.19 EX 6 i0076 
20 303 好 .75 .和 176 Oe 
a 0 ”9 2 36.2 170 ga 
2 363 1o1 3 3.4 :3 0 
了 3 27 i119 [3 22.5 64 209 
.73 120 .77 ER 275 
25 4 122 2.09 27.9 0 Snes 
26 1 130 3 20,9 176 Tg 


10.18 ”对 因 变 量 的 拟 合 值 的 预测 
关于 因 变 量 预测 拟 合 值 的 意义 已 在 上 节 论 述 过 ， 此 处 不 再 重复 讲解 。 
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7. 回归 分 析 得 到 的 残 差 序列 


图 10.19 是 回归 分 析 得 到 的 残 差 序 列 。 

关于 残 差 序列 的 意义 已 在 上 节 论 述 过 ， 此 处 不 再 重复 讲解 。 

读者 应 该 注意 到 在 上 面 的 模型 中 ，PK 的 系数 是 不 显著 的 ， 下 面 把 该 变量 剔除 掉 重 新 进行 
回归 分 析 。 图 10.20 是 对 数据 进行 新 回归 分 析 的 结果 。 


x a 


52028.7981 3 17342.9327 
4394.04007 141 31.1634048 


56422.0301 144 391,925265 


Goer. Sta. Err. 


0064062 。 -nnn1637 -on6oaa6 .0067277 
5.097772 。 2.114594 .9173653 。 9.278179 
.2216648 。 .9628256 001 .0974629 。 .3458667 
-16.54434 。 3.92757 -24.30000 。 -9.779905 


图 10.20 ”新 回归 分 析 的 结果 


从 上 述 分 析 结 果 中 ， 可 以 看 出 模型 整体 依旧 是 非常 显著 的 。 模 型 的 可 决 系数 以 及 修正 的 
可 决 系数 (Adj R-squared) 变化 不 大 ， 说 明 模型 的 解释 能 力 几乎 没 变 。 其 他 变量 (包括 常数 项 
的 系数 ) 都 非常 显著 ， 模 型 接近 完美 。 可 以 把 回归 结果 作为 最 终 的 回归 模型 方程 ， 即 : 


TC=0.0064062*Q+ 5.097772*PL+0.2216648 *PF -16.54434 

从 上 面 的 分 析 可 以 看 出 美国 电力 企业 的 总 成 本 TC) 受到 产量 (Q) 、 工 资 率 (PL) 、 人 燃料 
价格 PF)》 的 影响 ， 总 成 本 随 着 这 些 变 量 的 升 高 而 升 高 、 降 低 而 降低 。 值 得 注意 的 是 产量 的 增加 
引起 总 成 本 的 相对 变化 是 很 小 的 ， 所 以 从 经 济 意义 上 讲 ， 美国 的 电力 行业 存在 规模 经 济 。 
10.2.5 ”案例 延伸 


上 述 的 Stata 命令 比较 简洁 ， 分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
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NN 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 

1. 延伸 1: 在 回归 方程 中 不 包含 常数 项 

以 本 例 为 例 进行 说 明 ， 回 归 分 析 操 作 命 令 可 以 相应 地 修改 为 : 

regress TC Q PL PF,nocon 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 10.21 所 示 。 


regress TC Q PL PF,nocon 
Source 55 ar 本 Number of cba = 145 
Fl 3， 142) = 726.13 

Model | 75890.8019 = 3 25296.934 Prob > 了 = 0.0000 
Residval | 4947.00303 142 34.8380495 R-squared = 0.9388 
Adj R-squared = 0.9375 

Toral 80837.805 145 557.502103 Root HSE = 5.9024 
Tc Coef. std. Err. © p>lel [95% Conf. Interval] 

中 .0064558 .0001715 。 37.64 0.000 .0061167 。 .0067949 

PL | -2.955539 .9553464 -3.09 0.002 -4.844079 -1.067 

pr .2011095 。 .0662258 3.04 0.003 .0701937 .3320253 


图 10.21 延伸 1 分析 结果 图 


从 上 述 分 析 结 果 中 ， 模 型 整体 的 显著 程度 依旧 非常 高 。 模 型 的 可 决 系数 (R-squared) 及 
修正 的 可 决 系数 略 有 上 升 ， 模 型 的 解释 能 力 更 加 强大 。 

模型 的 回归 方程 变 为 : 

TC=0.0064558*Q-2.955539 *PL+0.2011095 *PF 

值得 注意 的 是 ，PL 的 系数 值 竞 然 变 为 了 负 值 ， 这 说 明 PL 的 升 高 反而 会 带 来 总 成 本 的 降 
低 ， 显 然 是 不 符合 生活 常识 的 ， 所 以 ， 该 模型 不 可 接受 。 

2. 延伸 2: 限定 参与 回归 的 样本 范围 

以 本 例 为 例 进行 说 明 ， 例 如 我 们 只 对 产量 高 于 100 的 样本 进行 回归 分 析 ， 操 作 命令 可 以 
相应 地 修改 为 : 


regress TC Q PL PF if Q>=100 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 10.22 所 示 。 


regress TC 0 PL PF if 0>-100 
Source 55 qr ms Number of obs = 124 
F( 3, 120) = 450.85 

Hodel | 48385.1545 3 16128.3848 Prob > 了 = 0.0000 
Residual | 4292.77683 120 35.7731402 R-squared = 0.9185 
adj R-squared = 0.9165 

Total | 52677.9313 123 428.275864 Root NSE = 5.9811 
Tc Coef. Std. Err. t Pp>ltl [95* Conf. Interval] 

a .0064214 .000183 35.08 0.000 .006059 .0067839 

pL .94541 。 2.457119 2.01 0.046 .0804852 9.810335 

pr .2674785 。 .0774243 3.45 0.001 .1141838 .4207732 
cons | -17.48977 4.418223 -3.96 0.000 。 -26.23755 -8.741999 


图 10.22 ”延伸 2 分 析 结果 图 
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关于 结果 的 分 析 与 前 面 类 似 ， 限 于 篇 幅 ， 这 里 不 再 更 述 。 

3. 延伸 3: 自动 剔除 不 显著 变量 

在 前 面 的 分 析 过 程 中 是 采取 逐步 手动 剔除 不 显著 变量 的 方式 得 到 了 最 终 的 回归 模型 ， 但 
是 如 果 变 量 很 多 而 且 存在 很 多 不 显著 的 变量 时 , 这 个 过 程 就 显得 非常 复杂 。 那么 有 没有 一 种 自 
动 剔 除 不 显著 变量 ， 直 接 得 到 最 终 模型 方程 的 Stata 操作 方法 呢 ? 答案 是 肯定 的 。Stata 14.0 提 
供 了 sw regress 命令 来 满足 这 一 需要 。 这 一 命令 的 操作 原理 是 不 断 迭 代 ， 最 终 使 得 所 有 变量 系 
数 的 显著 性 达到 设 定 的 显著 性 水 平 。 在 首次 迭代 时 ,所 有 的 变量 都 进入 模型 参与 分 析 , 然后 每 

- 步 迭 代 都 去 掉 P 值 最 高 或 者 说 显著 性 最 弱 的 变量 。 最 终 使 得 所 有 保留 下 来 的 变量 的 概率 值 

都 处 于 保留 概率 之 下 。 以 本 例 为 例 ， 如 果 设 定 显著 性 水 平 为 0.05， 那 么 操作 命令 就 应 该 是 : 


sw regress TC Q PL PF PK,pr(0.05) 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 10.23 所 示 。 


ss TC OQ PL PF PK,pr(0.05) 
begin with full model 
>= 0.0500 removing PK 
ss a ns Number of ops = 145 
7( 3 141) 556.52 
52028.7981 3 17342.9327 Prob > 了 ~ 0.0000 
4394.04007 141 31.1634048 R-squared = 0.9221 
haj R-squared = 0.9205 
56422.8381 144 391.825265 Root NSE = 5.5824 
Coef. Std, Err. t P>Itl [95% Conf. Interval] 
.0064062 .0001627 39.38 0.000 .0060846 .0067277 
5.097772 2.114594 2.41 0.017 ,9173653 9.278179 
“2216648 “0628256 3.53 0.001 :0974629 .3458667 
-16.54434 3.92757 -4.21 0.000 -24.30888 -8.779805 
图 10.23 ”延伸 3 分 析 结 果 图 
> 述 疆 A 各 9 -到 于 疆 详 读 -人 
可 以 发 现 上 述 结果 与 前 面 逐步 手动 操作 得 到 的 结果 一 致 。 至 于 结果 的 详细 解读 ， 限 于 篇 


幅 ， 这 里 不 再 歼 述 。 


10.3 ”本 章 习 题 


(1) 表 10.3 给 出 了 1955 年 145 家 美国 电力 企业 的 总 成 本 (TC) 与 产量 (Q) 的 相关 数 
据 。 试 以 总 成 本 为 因 变量 ， 以 产量 为 自 变 量 ， 利 用 简单 回归 分 析 方 法 研究 其 间 的 关系 。 


表 10.3 ”习题 数据 


TC/ 百 万 美元 
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编号 TC/ 百 万 美元 Q/ 千 瓦 时 
143 73.050 11796 
144 139.422 14359 
145 | 119.939 16719 


(2) 使 用 如 表 10.4 所 示 的 数据 来 估计 教育 投资 的 回 


) 。 模 型 说 明 : 


归 分 析 。 


以 Iw80 为 因 变量 ， 以 s80、expr80、tenure80、iq 为 自 变量 进行 多 重 线 性 回 


表 10.4 习题 数据 


报 率 。 各 变量 说 明 如 下 : 


lIw80 (1980 
年 工人 工资 的 对 数值 ) , s80 (1980 年 时 工人 的 受 教 育 年 限 ) ，expr80 (1980 年 时 工人 的 工龄 ) ， 
tenure80 (1980 年 时 工人 在 现 单位 的 工作 年 限 ) ，iq〈 智 商 ) ，med (母亲 的 教育 年 限 ) ，kww 

(在 knowledge ofthe World of Work 测试 中 的 成 绩 ) ，mrt (婚姻 虚拟 变量 , 已 婚 =1) ，age (年 


a 


tenure80 


Iw80 
6.64 
6.69 
6.72 
6.48 
6.33 
6.40 


6.47 
6.17 
7.09 


203 


第 11 章 stata 回归 诊断 与 应 对 


在 上 一 章 中 ， 简 要 介绍 了 最 小 二 乘 线性 回归 ， 这 种 方法 可 以 满足 大 部 分 的 研究 需要 。 但 
是 这 种 分 析 方法 的 有 效 性 建立 在 变量 无 异 方差 、 无 自 相关 、 无 多 重 共 线性 的 基础 之 上 。 现 实生 
活 中 很 多 数据 是 不 满足 这 些 条 件 的 , 那 就 需要 用 到 将 在 本 章 中 介绍 的 回归 诊断 与 应 对 方法 。 本 
章 的 内 容 包 括 3 部 分 , 分 别 是 异 方差 检验 与 应 对 、 自 相关 检验 与 应 对 、 多 重 共 线 性 检验 与 应 对 
等 方法 在 实例 中 的 具体 应 用 。 


11.1 实例 


异 方差 检验 与 应 对 


11.1.1 异 方 差 检验 与 应 对 的 功能 与 意义 


在 标准 的 线性 回归 模型 中 ， 有 一 个 基本 假设 : 整个 总 体 同 方差 〈 也 就 是 因 变 量 的 变异 ) 
不 随 自身 预测 值 以 及 其 他 自 变 量 的 值 的 变化 而 变化 。 然 而 , 在 实际 问题 中 这 一 假设 条 件 往 往 不 
被 满足 ， 会 出 现 异 方差 〈Heteroskedasticity) 的 情况 ， 如 果 继 续 采 用 标准 的 线性 回归 模型 ， 就 
会 使 结果 偏向 于 变异 较 大 的 数据 ， 从 而 发 生 较 大 的 偏差 , 所 以 在 进行 回归 分 析 时 往往 需要 检验 
变量 的 异 方差 , 从 而 提出 针对 性 的 解决 方案 。 常 用 的 用 于 判断 数据 是 否 存在 异 方差 的 检验 方法 
有 绘制 残 差 序列 图 、 怀 特 检 验 、BP 检验 等 ， 解 决 异 方差 的 方法 有 使 用 稳健 的 标准 差 进 行 回归 
以 及 使 用 加 权 最 小 二 乘 回归 分 析 方法 进行 回归 等 。 


11.1.2 ”相关 数据 来 源 


【 例 11.1] 某 著名 足球 俱乐部 拥有 自己 的 一 套 球员 评价 体系 , 他们 搜集 并 整理 了 其 中 145 
名 球员 的 相关 数据 ， 如 表 11.1 所 示 。 表 中 的 内 容 包 括 球员 的 身价 、 身 体 情况 、 精 神情 况 、 能 
力 情况 、 潜力 情况 5 部 分 的 内 容 , 试 使 用 球员 身价 作为 因 变 量 , 以 球员 的 身体 情况 、 精神 情况 、 
能 力 情况 、 潜 力 情况 作为 自 变量 ， 对 这 些 数据 使 用 最 小 二 乘 回归 分 析 的 方法 进行 研究 ， 并 进行 
异 方差 检验 ， 最 终 建 立 合 适 的 回归 方程 模型 用 于 描述 变量 之 间 的 关系 。 


\ \ \ \ NAN 
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表 11.1 某 足 球 俱乐部 搜集 整理 的 145 名 球员 的 相关 数据 


编号 球员 身价 身体 情况 精神 情况 能 力 情况 潜力 情况 
1 4.406719 0.693 147 5.342 334 5.187 386 5.209 486 
有 6.493 754 1.098 612 5.32301 5.860 786 5.159 055 
3 6.897705 1.386 294 5.323 01 5.860 786 5.141 664 
4 5.752 573 1.386 294 5.209 486 5.774 552 5.111 988 
5 5.283 204 1.609 438 5.356 586 5.655 992 5.451 039 
6 


4.584 968 2.197 225 5.356 586 5.655 992 $273 


142 11.11424 9.348 1 5.411 646 5.579 73 5.017 28 
143 11.198 9 9.375 516 356 586 5.655 992 4.997 212 


144 11.845 26 9.572 132 5.442 418 5.814 131 5.356 586 
145 11.694 74 9.724 301 5.438 079 5.463 832 5.087 596 


11.1.3 ”Stata 分 析 过 程 


在 利用 Stata 进行 分 析 之 前 ， 要 把 数据 录入 到 Stata 中 。 本 例 中 有 5 个 变量 ， 分 别 为 球员 
的 身价 、 身 体 情 况 、 精 神情 况 、 能 力 情况 、 洪 力 情况 。 我 们 把 这 5 个 变量 分 别 设 定 为 VI1~V5， 
变量 类 型 及 长 度 采 取 系统 默认 方式 ， 然 后 录入 相关 数据 。 相 关 操 作 在 第 1 章 中 已 有 详细 讲述 。 
录入 完成 后 数据 如 图 11.1 所 示 。 


[ordior Eon Emin W000 x | 


| pe Ed View Data Tools 
ELI 


ny 4.406719247264 
n E ~ Variables 5 
目 忆 | Phervnabkeshere 
| 了 四 Name Label 


E91 
mv2 
V3 
WVva 
V5 


区 Variables SPH68| 


Properties 9 
| 日 Variables 加 
Name v1 
Label = 有 | 
Type double 
| Format %10.0g 
Value label 
本 Notes 
| as ”7 9 Dawa 
| * lm Filename 守 例 1L1.dta 
[IReady Vars:5 Order Dataset Obs:145 Filter:Off Mode:Edit CAP NUM 4 


图 11.1 案例 11.1 数据 
先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 骤 如 下 : 


进入 Stata 14.0， 打 开 相关 数据 文件 ， 弹 出 主 界面 。 
加 在 主 界面 的 “Command” 文 本 框 中 输入 如 下 命令 。 


。 summarize VlV2V3V4V5,detail: 本 命令 旨 在 对 数据 进行 描述 性 分 析 ， 从 总 体 上 探 
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索 数 据 特征 ,观测 其 是 否 存在 极端 数据 或 者 变量 间 的 量 岗 差距 过 大 ， 从 而 可 能 会 对 回 
归 分 析 结 果 造 成 不 利 影响 。 

correlate V1 V2 V3 V4 V5: 本 命令 旨 在 对 数据 进行 相关 性 分 析 ， 旨 在 探索 变量 之 间 尤 
其 是 因 变量 与 各 个 自 变 量 之 间 的 相关 性 关系 ， 该 步骤 是 进行 回归 分 析 前 的 必要 准备 。 
regress V1V2V3V4V5: 本 命令 旨 在 对 数据 进行 回归 分 析 ， 探索 自 变量 对 因 变 量 的 
影响 情况 。 

vce: 本 命令 间 在 获得 变量 的 方差 - 协 方差 矩阵 。 

test V2 V3 V4 V5: 本 命令 旨 在 检验 回归 分 析 获得 的 各 个 自 变量 系数 的 显著 性 
predict yhat: 本 命令 旨 在 获得 因 变量 的 拟 合 值 。 

predict exresid: 本 命令 旨 在 获得 回归 模型 的 估计 残 差 。 

rvfplot: 本 命令 旨 在 绘制 残 差 与 回归 得 到 的 拟 合 值 的 散 点 图 ， 从 而 探索 数据 是 否 存 在 
异 方差 。 

Tvpplot V2: 本 命令 旨 在 绘制 残 差 与 解释 变量 V2 的 散 点 图 ， 从 而 探索 数据 是 否 存在 
异 方差。 

estat imtest,white: 本 命令 为 怀特 检验 ， 旨 在 检验 数据 是 否 存在 异 方差 。 

estat hettesbiid: 本 命令 为 BP 检验 ， 旨 在 使 用 得 到 的 拟 合 值 来 检验 数据 是 否 存在 异 方差 。 
estat hettest,rhs iid: 本 命令 为 BP 检验 ， 旨 在 使 用 方程 右边 的 解释 数据 来 检验 变量 是 否 
存在 异 方差 。 

estat hettest V2,rhs iid: 本 命令 为 BP 检验 ， 旨 在 使 用 指定 的 解释 数据 V2 来 检验 变量 
是 否 存在 异 方差 。 

regress V1 V2 V3 V4 V5,robust: 本 命令 为 采用 稳健 的 标准 差 对 数据 进行 回归 分 析 ， 
克服 数据 的 异 方差 对 最 小 二 乘 回 归 分 析 造 成 的 不 利 影响 。 


设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


11.1.4 结果 分 析 


在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 11.2~ 图 11.15 所 示 的 分 析 结果 。 
1. 对 数据 进行 描述 性 分 析 的 结果 
图 11.2 是 对 数据 进行 描述 性 分 析 的 结果 。 关 于 这 一 分 析 过 程 对 于 回归 分 析 的 重要 意义 已 
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在 前 面 章节 中 论述 过 ， 此 处 不 再 重复 讲解 。 


\\N\ 
\ 


第 11 章 “Stata 回 归 诊断 与 应 对 


\\\A\ \ WA 
marize VI VI VI VI V5 dctail 
1 
Perceatiles Smallest 
4.584967 4.406719 
6.216606 4.584967 
6.558198 5.283204 oba 145 
7.775696 5.752573 Sum of Vg. 145 
8.81789 Hean 8.632419 
Largeat Std. Dev. 1.421723 
9.556197 11.15451 
10.38338 11.1989 Variance 2.021297 
10.71206 11.69474 Skewness -.4086256 
11.59474 11.84526 Kurtosis 3.064497 
va 
Peroentiies milan Percentiles Smellest 
1.098612 .6931472 .634729 4.634729 
2.564949 1.098612 4.634729 4.634729 
3.7612 1.38629¢ obe 145 4.859812 4.634729 obs 145 
5.631212 1.386294 Sum of Wgt. 145 5.361292 4.634729 Sum of mg， 145 
.011214 Hean 6.556651 5.594711 Nean 5.511444 
Largeat Std. Dev. 1.912792 Largeac Std, Dev. .3589003 
7.826842 9.3481 5.774552 5.983936 
.668884 9.375516 Variance 3.658775 5.860786 6.059123 Variance 1288094 
9.064389 9 .572132 Skewness ~.9612785 5.091644 6.059123 Sewness -1.126001 
9.572132 9.724301 Kurtosis 3.65205 6.059123 6.059123 Kurtosis 3.747527 
wa 三 
Perceatiles Smallest Percentiles Smallest. 
4.976734 4.976734 4.962845 4.927254 
5.043425 4.976734 5.043425 4.962845 
5.123964 5.023881 obs 145 5.056245 4.969813 ops 145 
5.170484 5.023881 Sum of Wgt. 145 5.087596 4.997212 Sum of Wgt, 145 
5.31812 Hean 5.276838 5.135798 Mean 5.156777 
Largest Std. Dev. .1233593 Lergest Std. Dev, .1003897 
5.389072 5.446737 和 5.209406 3.4161 
5.438079 5.446737 Variance .0152175 5.309268 5.4161 Variance “0100781 
5.442416 5.446737 a -429873 3.396986 3.42499 Skewess .7363024 
5.446737 5.446737 mictast 2.179193 和 5.42495 5.451038 Furtosis 3.296593 


11.2 ”案例 11.1 描述 性 分 析 的 结果 


在 如 图 11.2 所 示 的 分 析 结果 中 ， 可 以 得 到 很 多 信息 ， 包 括 百 分 位 数 、4 个 最 小 值 、4 个 最 
大 值 、 平 均值 、 标 准 差 、 偏 度 、 峰 度 等 。 


(1) 百 分 位 数 (Percentiles ) 

可 以 看 出 变量 V1 的 第 1 个 四 分 位 数 (25% ) 是 7.775696, 第 2 个 四 分 位 数 (50%) 是 8.81789， 
第 3 个 四 分 位 数 (75%) 是 9.556197; 变量 V2 的 第 1 个 四 分 位 数 (25%) 是 5.631212， 第 2 
个 四 分 位 数 〈50%) 是 7.011214， 第 3 个 四 分 位 数 〈75%) 是 7.826842; 变量 V3 的 第 1 个 四 
分 位 数 (25%) 是 5.170484， 第 2 个 四 分 位 数 (50%) 是 5.31812， 第 3 个 四 分 位 数 (75%) 是 
5.389072; 变量 V4 的 第 1 个 四 分 位 数 (25% ) 是 5.361292, 第 2 个 四 分 位 数 (50%) 是 5.594711， 
第 3 个 四 分 位 数 (75%) 是 5.774552; 变量 V5 的 第 1 个 四 分 位 数 (25%) 是 5.087596， 第 2 
个 四 分 位 数 〈50%) 是 5.135798， 第 3 个 四 分 位 数 (75%) 是 5.209486。 


(2) 4 个 最 小 值 ( Smallest) 

变量 V1 最 小 的 4 个 数据 值 分 别 是 4.406719、4.584967、5.283204、5.752573 。 
变量 V2 最 小 的 4 个 数据 值 分 别 是 0.6931472、1.098612、1.386294、1.386294。 
变量 V3 最 小 的 4 个 数据 值 分 别 是 4.976734、4.976734、5.023881、5.023881。 
变量 V4 最 小 的 4 个 数据 值 分 别 是 4.634729、4.634729、4.634729、4.634729。 
变量 V5 最 小 的 4 个 数据 值 分 别 是 4.927254、4.962845、4.969813、4.997212。 
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(3) 4 个 最 大 值 (Largest) 

变量 V1 最 大 的 4 个 数据 值 分 别 是 11.15451、11.1989、11.69474、11.84526。 

变量 V2 最 大 的 4 个 数据 值 分 别 是 9.3481、9.375516、9.572132、9.724301。 
变量 V3 最 大 的 4 个 数据 值 分 别 是 5.446737、5.446737、5.446737、5.446737。 
变量 V4 最 大 的 4 个 数据 值 分 别 是 5.983936、6.059123、6.059123、6.059123。 
变量 V5 最 大 的 4 个 数据 值 分 别 是 5.4161、5.4161、5.42495、5.451038。 


(4) 平均 值 (Mean ) 和 标准 差 ( Std. Dev) 

变量 V1 的 平均 值 为 8.632419， 标 准 差 是 1.421723。 
变量 V2 的 平均 值 为 6.556651， 标 准 差 是 1.912792。 
变量 V3 的 平均 值 为 5.276838， 标 准 差 是 0.1233593。 
变量 V4 的 平均 值 为 5.511444， 标 准 差 是 0.3589003。 
变量 V5 的 平均 值 为 5.156777， 标 准 差 是 0.1003897。 


(5) 偏 度 ( Skewness ) 和 峰 度 (Kurtosis ) 

变量 V1 的 偏 度 为 -0.4086256， 为 负 偏 度 但 不 大 。 

变量 V2 的 偏 度 为 -0.9612785， 为 负 偏 度 但 不 大 。 

变量 V3 的 偏 度 为 -0.429873， 为 负 偏 度 但 不 大 。 

变量 V4 的 偏 度 为 -1.126801， 为 负 偏 度 但 不 大 。 

变量 V5 的 偏 度 为 0.7363024， 为 正 偏 度 但 不 大 。 

变量 V1 的 峰 度 为 3.064497， 有 一 个 比 正 态 分 布 略 长 的 尾巴 。 
变量 V2 的 峰 度 为 3.65205， 有 一 个 比 正 态 分 布 略 长 的 尾巴 。 
变量 V3 的 峰 度 为 2.179193， 有 一 个 比 正 态 分 布 略 短 的 尾巴 。 
变量 V4 的 峰 度 为 3.747527， 有 一 个 比 正 态 分 布 略 长 的 尾巴 。 
变量 V5 的 峰 度 为 3.296593， 有 一 个 比 正 态 分 布 略 长 的 尾巴 。 


综 上 所 述 ， 数 据 的 总 体质 量 还 是 可 以 的 ， 没 有 极端 异常 值 ， 变 量 间 的 量 纲 差距 、 变 量 的 
偏 度 、 峰 度 也 是 可 以 接受 的 ， 可 以 进行 下 一 步 的 分 析 。 

2. 对 数据 进行 相关 性 分 析 的 结果 

图 11.3 是 对 数据 进行 相关 性 分 析 的 结果 。 关 于 这 一 分 析 过 程 对 于 回归 分 析 的 重要 意义 已 
在 前 面 章节 中 论述 过 ， 此 处 不 再 重复 讲解 。 


在 图 11.3 中 ,V1 与 各 个 自 变量 之 间 的 相关 关系 还 是 可 以 接受 的 ， 可 以 进入 下 面 的 回归 分 
析 过 程 。 
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3. 对 数据 进行 回归 分 析 的 结果 
图 11.4 是 对 数据 进行 回归 分 析 的 结果 。 


AAA AAAW \ AAAN 


| :esrese mg2 VI VA VS 
Souree ss 上 ss Number of cba = 145 
Fl 4, 140) = 437.69 

Model | 269.514818 4 67.3787045 proh > 下 = 0.o000 
pesidnal | 21.5520082 140 .153942915 R-squared = 0.9260 
335 R-smared = 0.9238 

Toral | 291.066826 144 2.0212974 Root NSE = .39236 
Vi Coet. Std. Err. 5 Pltl 19ss Conf. Interval] 

va 7203941 .0174664 41.24 -0.000 .685862 。 .7549262 

中 .4363412 .2910476 1.509 0.136 。 -.1390756 。 1.011758 

ve .426517 .1003691 4.25 0.000 .2280818 。 .6249521 

V5 | -.2198884 .3394286 -0.65 0.518 = -.890957 。 .4511803 
_cons .3897354 2.455817 = 0.16 0.874 -4.465547 。 5.245018 


11.4 案例 11.1 回归 分 析 的 结果 


从 上 述 分 析 结 果 中 ， 可 以 看 出 共有 145 个 样本 参与 了 分 析 ， 模 型 的 F 值 (4, 140) = 437.69， 
P 值 (Prob>F) = 0.0000, 说明 模 型 整体 上 是 非常 显著 的 .模型 的 可 决 系数 (R-squared )= 0.9260， 
模型 修正 的 可 决 系数 (Adj R-squared) = 0.9238， 说 明 模 型 的 解释 能 力 非 常 不 错 。 
模型 的 回归 方程 是 : 


V1=0.7203941*V2+0.4363412*V3+0.426517*V4-0.2198884*V5+0.3897354 


变量 V2 的 系数 标准 误 是 0.0174664, t 值 为 41.24, P 值 为 0.000, 系数 是 非常 显著 的 , 95% 
的 置信 区 间 为 [0.685862, 0.7549262]。 变 量 V3 的 系数 标准 误 是 0.2910476，t 值 为 1.5, P 值 为 
0.136， 系 数 的 显著 程度 不 高 ，95% 的 置信 区 间 为 [-0.1390756, 1.011758]。 变 量 V4 的 系数 标准 
误 是 0.1003691, t 值 为 4.25, P 值 为 0.000， 系 数 是 非常 显著 的 ，95% 的 置信 区 间 为 [0.2280818， 
0.6249521]。 变 量 V5 的 系数 标准 误 是 0.3394286，t 值 为 -0.65，P 值 为 0.518， 系 数 是 非常 不 显 
著 的 , 95% 的 置信 区 间 为 [-0.890957, 0.4511803]。 常数 项 的 系数 标准 误 是 2.455817, t 值 为 0.16， 
P 值 为 0.874， 系 数 也 是 非常 不 显著 的 ，95% 的 置信 区 间 为 [-4.465547, 5.245018]。 

从 上 面 的 分 析 可 以 看 出 ， 球 员 的 身价 与 其 身体 情况 、 精 神情 况 、 能 力 情况 之 间 是 一 种 正 
向 联动 的 变化 关系 , 这 在 事实 上 也 是 可 以 接受 的 , 但 是 球员 的 潜力 情况 对 身价 影响 的 显著 性 很 
低 , 而 且 是 一 种 负 值 关系 , 这 可 能 是 因为 球员 的 潜力 情况 本 身 就 很 难 衡量 , 或 其 预测 存在 很 大 

4. 对 变量 的 方差 - 协 方差 矩阵 

图 11.5 是 对 变量 的 方差 - 协 方差 矩阵 。 


voe 


Covariance matrix of coefficients of regress model 


et) | ve v3 va v5 _cons 
V2 | .00030508 
V3 | -.00045476 .08470871 
Va | .00031477 -.01094123 .01007397 
V5 | .00032263 .02367632 -.00662951 .11521179 
_cons | -.00299912 -.50580392 .03433611 -.68463476 6.0310381 


11.5 变量 的 方差 - 协 方差 矩阵 
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从 图 11.5 中 可 以 看 出 ， 各 个 自 变量 的 方差 与 协 方差 都 不 是 很 大 。 
变量 系数 的 假设 检验 结果 
图 11.6 是 对 变量 系数 的 假设 检验 结果 。 


.test V2 V3 Va v5 


(1 v2=0 
(2) v3=0 
(3) vw-0 


(4) v5=0 


F( 4， 140) = 437.69 
Prop >F= 0.0000 


图 11.6 对 变量 系数 的 假设 检验 结果 
从 图 11.6 中 可 以 看 出 ， 模 型 非常 显著 ， 在 5% 的 显著 性 水 平 上 通过 了 检验 。 
6. 对 因 变 量 的 拟 合 值 的 预测 
11.7 是 对 因 变 量 的 拟 合 值 的 预测 。 


a wa a ww 三 yer 
TA92 .ec914718 5,423347 S1077058 $a2094862 [+o207150 
59080986129 $I2IO4 $8607862 5.1590553 
| 
| 
5 ao07 oo94179 S1505467 Suss9918 $sss070s Beis 
‘ 

7 
' 


| 
os 2.3978953 So204367 $8723178 51270702 B07 
| 
ae000 .seo So1490717 50727377 $0074154 Dp 
10 G2l66001 .om0s2s So1474945 5.0l0605 sn640 esse 
gs 


1 F085064] 3.2104754 $.342334] 5.187385¢ $5,1357904 


2 S072777 2244758 $21964 | 
3 07099488 sm OR 
4 G07722 “16615616 5$.4100737 doy 


.i 
| 
36 .10990y .614729 $0014044 

2 et 4 7 a e707 


四 
Er 
0 


7 S27) 。 5.049856 


四 
| 
| 


joy 9 


ge 
S07 5270004 2 00 
0 


ER 4 刘 72537 ,3393 亲 殉 50932677 。 53083677 
38 71405875 。 5.001346 5.2574954 5.4163004 5.42455 BEN 


11.7 对 因 变量 的 拟 合 值 的 预测 


因 变量 预测 拟 合 值 是 根据 自 变量 的 值 和 得 到 的 回归 方程 计算 出 来 的 ， 主 要 用 于 预测 未来 。 
在 图 11.7 中 ， 可 以 看 到 yhat 的 值 与 V1 的 值 是 比较 相近 的 ， 所 以 拟 合 的 回归 模型 还 是 不 错 的 。 


7. 回归 分 析 得 到 的 残 差 序列 
图 11.8 是 回归 分 析 得 到 的 残 差 序列 。 
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4ok71337 69114738 。 5.1427143 。 531871858 。 了 .2094862 。 4.297358 [ -11 生 61 
917878 。 1.0986137 $3701 $8607862 。 9-18908F7 4969326 
50377049 1.3862344 $2101 。 58607863 $.1416676 09803135 
.78029728 1.3862944 5,2094867 57745515 。 31183878 了.009405 

282077 1.6094179 5.3565963 54859938。 96580785 $400224 


145949675 3.3372346 51565861 5.6559918 5-2729996 5$.562808 
90554095。 .3378953 5288267 5872337 和 5 了 378762 $757674 
SMATI27 。 35649494 = $32101 5,8607862 50106353 $3950107 
2513983 25649494 。 5.3830737 5.673]293 $5.0434254 $.839762 
46065 30910425 S.A474945 5.0106153 S26402 。 5149256 10 
7085064 。 1.2184758 $5,3427343 5,4873058 5.1257304 6.122661 500070 
4.5072777 B2188758 。 5.123364 5.903963 $1179976 .371254 且 
.040749 于 S9497 5420535 $I622922 -635297 
04797922 于 Saag079 S4638118 5.0938664 6.610617 1 
56266064 3.70 164786 6.059232 S1157984  €.807907 
6 GIOS9183 3431347 S170484 4.614729 5.0814044 €.443963 
37 se 7 0 
3722 $524892 $062595 7.224104 
S90737 SOTI320) $049866 -7.242407 
04786 .0069392 $170004 71 
30346278。 38926443。 51357384 -7.417078 
和 19878 4 9 
.3474954 $6164004 0998664 7.335307 
6407 2 
03743 SAIN 
5.3040967 5.3675797 。 5170444 7.577609 攻 
a929569 $1002677 -1o03677 7.103041 D9007070 
2 7S O94 53574954 004 543405 7408795 


图 11.8 ” 残 差 序列 
关于 残 差 序列 的 意义 已 在 上 节 中 论述 过 ， 此 处 不 再 重复 讲解 。 


8. 绘制 散 点 图 
图 11.9 是 利用 上 面 两 步 得 到 的 残 差 与 得 到 的 拟 合 值 绘制 的 散 点 图 。 
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. 。 . 
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11.9 ” 残 差 与 拟 合 值 的 散 点 图 


从 图 11.9 中 可 以 看 出 ， 残 差 随 着 拟 合 值 的 不 同 而 有 所 不 同 ， 尤 其 是 在 拟 合 值 较 小 〈4~8) 
的 时 候 ， 残 差 波 动 比较 剧烈 〈 并 不 是 在 0 附近 ) ， 所 以 ， 数 据 是 存在 异 方差 的 。 
图 11.10 是 利用 残 差 与 自 变量 V2 绘制 的 散 点 图 。 
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11.10 ” 残 差 与 自 变量 V2 的 散 点 图 


从 图 11.10 中 可 以 看 出 ， 残 差 随 着 自 变量 V2 值 的 不 同 而 有 所 不 同 ， 尤 其 是 在 V2 值 较 小 
(0~4) 的 时 候 ， 残 差 波动 比较 剧烈 〈 并 不 是 在 0 附近 ) ， 所 以 ， 数 据 是 存在 异 方差 的 。 


9. 怀特 检验 的 检验 结果 
图 11.11 是 怀特 检验 的 检验 结果 


.estat imtest,white 


White's test for Ho: homoskedasticity 
against Ha: unrestricted heteroskedasticity 


chi2 (14) = 73.48 
Prob > chiz = 0,0000 


mn 5 Trivedi's decomposition of IN-test 


Source chi2 


eteroskedasticity 73.48 
Skewness 22.34 
Kurtosis 2.62 


Total 98.45 


11.11 怀特 检验 的 检验 结果 


怀特 检验 的 原 假 设 数据 为 同方 差 。 从 图 11.11 中 可 以 看 出 ，P 值 为 0.0000， 非 常 显著 地 拒 
绝 了 同方 差 的 原 假设 ， 认 为 存在 异 方差 。 


10. BP 检验 的 检验 结果 


图 11.12~ 图 11.14 是 BP 检验 的 检验 结果 。 其 中 ， 图 11.12 是 使 用 得 到 的 拟 合 值 对 数据 进 
行 异 方差 检验 的 结果 ， 图 11.13 是 使 用 方程 右边 的 解释 变量 对 数据 进行 异 方差 检验 的 结果 , 图 
11.14 是 使 用 指定 的 解释 变量 V2 对 数据 进行 异 方差 检验 的 结果 。 
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. estat hettest,iid 


Breusch-Fagan / Cook-Weisberg test for heteroskedasticiry 
Ho: Constant variance 
Variables: fitted values of Vi 


chi2(1) = 29.04 
Prob > chi2 = 0.0000 


图 11.12 BP 检验 的 检验 结果 1 
~ estat hettest,rhs iid 
Breusch-pagan / Cook-Veisberg vest for heteroskedasticity 
Ho: Constant variance 


Variables: V2 V3 V4 V5 


chiz2 (4) = 53.55 
Prob > chi2 = 0.0000 


图 11.13 BP 检验 的 检验 结果 2 


estat hettest V2,rhs iid 


Breusch-Pagan / Cook-Veisberg test for heteroskedasticity 
Ho: Constant variance 
Variables: V2 V3 V4 V5 


chi2 (4) = 35.55 
Prob > chi2 = 0.0000 


图 11.14 BP 检验 的 检验 结果 3 
BP 检验 的 原 假设 数据 为 同方 差 。 从 图 11.12~ 图 11.14 中 可 以 看 出 ，P 值 均 为 0.0000， 非 
常 显著 地 拒绝 了 同方 差 的 原 假设 ， 认 为 存在 异 方差 。 
11. 回归 分 析 的 结果 
图 11.15 是 使 用 稳健 的 标准 差 对 数据 进行 回归 分 析 的 结果 。 


，regress Vl V2 V3 V4 V5,robust 
Linear regression Nunber of obs = 145 
F( 4, 140) = 175.79 
Prob > 了 = 0.0000 
R-squared = 0.9260 
Root HSE = .39236 

Robust 

Vi Coef. Std. Err. 上 Pp>ltl [95% Conf. Interval] 
V2 .7203941 .0325975 22.10 0.000 .655947 .7848411 
v3 .4363412 .2456358 1.78 0.078 .049294 .9219764 
Va .426517 .0754827 5.65 0.000 .2772836 .5757503 
V5 | -.2198884 .3238121 -0.68 0.498  -.8600823 .4203056 
_cons .3897354 。 2.30735 0.17 0.866 -4.172019 4.95149 


图 11.15 ”使 用 稳健 的 标准 差 对 数据 进行 回归 分 析 的 结果 


从 上 述 分 析 结 果 中 可 以 得 到 很 多 信息 。 可 以 看 出 模型 的 F 值 (4, 140) = 175.79, P 值 (Prob 
>F) = 0.0000， 说 明 模型 整体 上 依旧 是 非常 显著 的 。 模 型 的 可 决 系数 (R-squared) 为 0.9260， 
模型 的 解释 能 力 依旧 很 高 。 

模型 的 回归 方程 没有 发 生变 化 ， 依 旧 是 : 
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V1=0.7203941*V2+0.4363412*V3+0.426517*V4-0.2198884*V5+0.3897354 


但 是 V3、V5 等 变量 系数 的 显著 性 得 到 了 一 定 程度 的 提高 , 这 说 明 通 过 使 用 稳健 的 标准 差 
进行 回归 分 析 ， 使 回归 模型 得 到 了 一 定 程度 的 改善 。 


11.1.5 ”案例 延伸 


上 述 的 Stata 命令 比较 简洁 ， 分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 

下 面 使 用 加 权 最 小 二 乘 回 归 分 析 方法 解决 数据 的 异 方差 问题 。 

以 本 例 为 例 进行 说 明 ， 操 作 命令 如 下 。 


日 Ieg V1-V5: 本 命令 旨 在 以 V1 为 因 变 量 ， 以 V2、V3、V4、V5 为 自 变 量 ， 对 数据 进 
行 最 小 二 来 回归 分 析 。 

。 predict exresid: 本 命令 旨 在 估计 上 步 回归 分 析 得 到 的 残 差 。 

。 gen ee=e^2: 本 命令 旨 在 对 残 差 数 据 进行 平方 变换 ， 产 生 的 新 变量 ee 为 残 差 的 平方 。 

。 ”gen lnee=log(ee): 本 命令 旨 在 对 数据 进行 对 数 变 换 ， 产 生 的 新 变量 Inee 为 上 步 得 到 残 
差 平 方 的 对 数值 。 

。 reg lnee V2,nocon: 本 命令 旨 在 进行 以 上 步 得 到 的 残 差 平方 对 数值 为 因 变 量 ， 以 V2 
为 自 变量 ， 并 且 不 包含 常数 项 的 最 小 二 乘 回归 分 析 。 

。 ”predict yhat: 本 命令 旨 在 预测 上 步 进行 的 最 小 二 乘 回归 产生 的 因 变 量 的 拟 合 值 。 

。 ”gen yhathat=exp(yhat): 本 命令 旨 在 对 因 变 量 的 拟 合 值 进行 指数 变换 ， 产 生 的 新 变量 
yhathat 为 yhat 的 指数 值 。 

。 reg V1V2V3V4V5 [aw=1/yhathat]: 本 命令 旨 在 对 数据 进行 以 V1 为 因 变 量 , 以 V2、 
V3、V4、V5 为 自 变量 ， 以 yhathat 的 倒数 为 权重 变量 的 加 权 最 小 二 乘 回 归 分 析 。 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 11.16~ 图 11.23 所 示 。 
图 11.16 是 对 数据 进行 回归 分 析 的 结果 。 


reg V1-V5 
Source ss at us Number of cbs = 145 
F( 4 40) = 437.69 
Model | 269.514818 4 67.3787045 Prob >F = 0.0000 
Residual | 21.5520082 140 .153942915 R-squared = 0.9260 
aaj R-squared = 0.9238 
Toral | 291.066826 144 2.0212974 Root MSE = .39236 
vi Coef. Std. Err. = p>ltl {95% Conf. Interval] 
v2 .7203941 .0174664 41.24 0.000 .685862 .7549262 
v3 .4363412 .2910476 1.50 0.136  -.1390756 1.011758 
vs .426517 .1003691 4.25 0.000 .2280818 .6249521 
V5 | -.2198884 .3394286 -0.65 0.518 -.890957 .4511803 
_cons -3897354 。 2.455817 0.16 0.874 -4.465547 5.245018 


图 11.16 对 数据 进行 回归 分 析 的 结果 


对 本 结果 的 解读 已 在 前 面 有 所 表述 ， 此 处 限于 篇 幅 不 再 袭 述 。 
图 11.17 是 回归 分 析 得 到 的 残 差 序列 。 
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vi 
4.4067192 
6.4937538 
6.8977049 
5.7525726 
5.2832037 
4.5849675 
6.8554088 
6.5147127 
6.2633983 
6.2166061 
7.0850643 
6.5072777 
5.8550719 
6.0473722 
6-2466064 
6.3099183 
6.6783421 
6.4982821 
6.5581978 
6.8057226 
7.3458835 
7.3870902 


车 光 a 


nu D3 3 ww 
一 4.4067192 .69314715 5.3423343 5.3573855 
2 3.0986123 $5.32301 $5.8607862 
3 43.3862344 5.32301 5.8607862 
* 33362944 5.2094862 5.7745515 
5 5.2832037 1,6094379 5.3565863 5.6559915 
6 4.5849675 2.1972246 $5,3565863 5.6559918 
7 6.8554088 2.3978953 = 5.288267 5.8721178 
6S147127 2.5649494 =5.32301 5.8607862 
9 6.2633983 2.5649434 $5.3590717 5.6733233 
10 6.2166061 3.0910425 $5.1474945 5,0106353 
33 7.0850643 3.2188758 $5,3423343 5,187385 
12 6.5072777 3.2188758 5.123964 5.9839363 
13 5.8550719 3.5553481 5$.198497 5$.420535 
14 6.0473722 3.6635616 $5.4350793 5.4638318 
15 6.2166061 3.7612001 。 5.164786 6.0591232 
16 6.3099183 4.1431347 5.170454 4.634729 
37 6.6783421 4.2195077 $5.288267 5.8721175 
38 6.4982821 4.3944432 5$.433722 5,6524832 
19 6.5581978 4.4308168 $5,3890717 $5,6733233 
20 6.8057226 4.2904594 5.164756 6.0591232 
21 7.3158835 4.5951199 $5.3936275 $5.8916442 
22 7.3870902 4.6151205 。 5.1119878 -5.811141 


v2 
69314715 
.0386123 
12.3562344 
32.3562944 
4.6094379 
2.1972246 
2.3978953 
2.5649494 
2.5649494 
3.0910425 
3.2188758 
3.2188758 
3.5553483 
3.6635616 
3.76312002 
31433347 
4.2335077 
143344492 
4.4308165 
142304534 
14.53534199 
4.6151205 


VB 
5.3423343 
5.32304 
5.32304 
5.2094562 
5.3565863 
5.3565663 
5.288267 
5.32301 
5.3590737 
5.1474945 
5.3423343 
5.123964 
$5,198497 
$5,4380793 
5.464786 
5.170484 
5.288267 
5.433722 
5.3590737 
5.164756 
5,3936275 
5.1119678 


Vs 
5.1873858 
5.8607862 
5.8607862 
5.7745515 
5.6559918 
5.6559918 
5.8721178 
5.8607862 
5.6733233 
5.0106353 
5.1873858 
5.9839363 

5.420535 
5.4638318 
6.0591232 

4.634729 
5.8724178 
5.6524892 
5.6733233 
6.0591232 
5.8946442 

5.811141 


” PN 
5.2094862 [ 1195615 


S.A590553 
5.14416636 
5.1119678 
5.4510385 
5.2729996 
$5.3278762 
5.0106353 
5.0434251 

5.236442 
5.1357984 
5.1179936 
5.3612922 
5.0998664 
5.4357984 
5.0814044 
5.3474075 

5.062595 

5.049556 

5.470484 
5.2357984 
5.2574954 


图 11.17 回归 分 析 得 到 的 残 差 序列 
11.18 是 对 残 差 序 列 进行 平方 变换 后 的 结果 。 


人 
5.2094862 = .1195615 
$3590553 1.624628 
$4416636 。 1.83751 
5.3319878 = .752358 
5.4510355 -182983 
5.2729996 -~.9778399 
5.3278762 4.097735 
5.0306353 。 .5566301 
5.0434251 = .3636364 

5.236442 。 ,3683498 
5.3357984 。 .9621836 
5.3379938 = .1360236 
5.3612922 ~.4972979 
.0998664 ~,563445 
5.4357984 。 -.594301 
5.0814044 ~-.1500509 
5.3471075 -~.3573815 

5.062535 .7258219 

5.049856 -~.6843098 

5.470454 ~-.3758329 
$1357954 ~.1211948 
5,2574954 。 .1195903 


图 11.18 ”对 残 差 序列 进行 平方 变换 后 的 结果 
关于 残 差 序列 的 意义 已 在 上 节 论 述 过 ， 此 处 不 再 重复 讲解 。 


11.19 是 对 残 差 序 列 的 平方 值 进行 对 数 变换 的 结果 。 


PA 
014235 
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vw 人 
4 
和 37838 4.9986173 $2304 F-00786 0553 .6489 

0977049 1.2062944 5.33301 -9607863 
S236 34 500062 $5 
下 28820937 MITD SSS pg 
05 23972246 5,3565463 4,0559916 
054088 3-3978953 $244267 5.8724178 
RB S44 
3039303 36439494 £2890717 4,0733213 
GN04063 .OPO425 $5474945  $.04006353 
PONS0643 IFIP 3434 332873858 20957944 ,96106 67 
7T7 MS 94 I 599 024 
SOS BSS 4 
OTIT22 36MS656 5.4340795 $.4438314 $5,0938464 ~.S4beas .S74708 
SSOGL IGIO0 A64786 OPN21 BA57M4 0 0 
BONISY 4AMiD47 5,170454 -4.634729 5.0414044 -i400509 .083444 
T2077 S207 S258 0 0 
ANE 2 RS 
S539 408168 SNOTE7 S723 5049056 -444008 -4828 
SOT226 42904894 30786 .OMI213 70484 ~ 27SSI2S .2608 
ET 
33 O90 GIS120% Sil9078 S8141 $26744 119908 .014101 


图 11.19 对 残 差 序列 的 平方 值 进行 对 数 变换 的 分 析 结果 


11.20 是 以 上 步 得 到 的 残 差 平方 对 数值 为 因 变 量 ， 以 V2 为 自 变量 ， 并 且 不 包含 常数 项 
的 最 小 二 乘 回 归 分 析 结 果 。 


reg lnee V2,nocon 


荐 呈 呈 时 区 吓人 SS 


Source ss af MS Number of obs = 145 
E( 1 144) = 448.48 

Model | 2021.97911 1 2021.97911 srobp >F = 0.0000 
Residual | 649.222688 144 4.50849089 a-aquared = 0.7570 
Adj R-squared = 0.1553 
Toral | 2671.2018 145 18.4220814 Roor MSE = 2.1233 


lree Coef. Scd. Err. t Eltl I954 Conf. Interval] 


Va | -.5468s41 .0258244 -21.18 0.000 -.597938  -.4958502 


11.20 最 小 二 乘 回 归 分 析 结果 
11.21 是 上 步 进 行 的 最 小 二 乘 回 归 产 生 的 因 变 量 的 拟 合 值 结 果 。 


™ a . a 
TT 
00904323 0 
He 0 0 e006 
040944 pa as 
”5 
Ha 
RINE 0 
beapeps 0 00786 50806383 .1 
9094 OT 2 
glo425 Klarapes $0lOGWN S260s 
TT 
TT 
MS 9 2 
TT 


11.21 最 小 二 乘 回归 分 析 产 生 的 因 变量 的 拟 合 值 结果 
图 11.22 是 对 因 变 量 的 拟 合 值 进行 指数 变换 的 结果 。 


216 


em 


NUN 号 \\ 
\ \ 
\ WN \ 
\\N \\ \ \ 
\ \\\N \ \ 
NANNN 
NN \ 
WN 


AAAAAAANW 
\\\ 
AAAAAAAN 


So 


人 


3 
2 2 
ry 
2 


M74 


图 11.22 ”对 因 变量 的 拟 合 值 进行 指数 变换 的 结果 


图 11.23 是 加 权 最 小 二 乘 回 归 分 析 的 结果 。 


.reg Vl V2 V3 V4 V5 [aw=1/yhathat] 
(sum of wat is 7.8139e+03) 


Source ss ar us Number of obs = 145 
Fl 4, 140) = 888.79 


Model | 173.679487 4 43.4198717 Prop >F = 0.0000 
Residual | 6.83940919 140 .0466852923 R-squared = 0.9621 
Adj R-squared = 0.9610 
180.518896 144 1.25360344 Root MSE = .22103 


Coef. Std. Err. {95% Conf. Interval] 


.8733637 。 .0155164 .8426869 .9040405 
.5411784 。 .1713419 .2024263 .8799305 
.4642838 .0625673 .3405849 。 ,5879827 

-.0882917 。 .1977227 -.4792002 .3026168 

-2.157215 1.376615 -4.878857 .5644262 


图 11.23 ”加 权 最 小 二 乘 回归 分 析 的 结果 


11 章 ”Stata 回 归 诊 
WNMWMN 


在 上 面 的 分 析 结 果 中 看 出 模型 的 F 值 〈 代 表 模 型 的 显著 程度 ) 、 部 分 变量 的 P 值 以 及 
R-squared 值 、Adj R-squared 值 〈 代 表 模 型 的 解释 能 力 ) 都 较 普通 最 小 二 乘 回归 分 析 有 了 一 定 
程度 的 优化 ， 这 就 是 克服 异 方差 带 来 的 改善 效果 。 


11.2 ”实例 二 一 一 自 相关 检验 与 应 对 


11.2.1 自 相 关 检 验 与 应 对 的 功能 与 意义 


如 果 线 性 相关 模型 中 的 随机 误差 项 的 各 期 望 值 之 间 存在 着 相关 关系 ， 这 时 ， 我 们 就 称 随 
机 误差 项 之 间 存 在 自 相关 性 〈Autocorrelation) 。 线 性 回归 模型 中 随机 误差 项 存在 序列 相关 的 
原因 很 多 , 但 主要 是 由 经 济 变 量 自身 特点 、 数 据 特点 、 变 量 选 择 及 模型 函数 的 形式 选择 引起 的 。 
常见 原因 包括 经 济 变量 惯性 的 作用 、 经 济 行为 的 滞后 性 、 一 些 随机 因素 的 干扰 或 影响 、 模 型 设 
定 误 差 、 观 测 数据 处 理 等 。 自 相关 不 会 影响 到 最 小 二 乘 估 计量 的 线性 和 无 偏 性 , 但 会 使 之 失去 
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有 效 性 ， 使 之 不 再 是 最 优 估计 量 , 而 且 自 相关 的 系数 估计 量 将 有 相当 大 的 方差 , TT 检验 也 不 再 
显著 , 模型 的 预测 功能 失效 ， 所 以 在 进行 回归 分 析 时 往往 需要 检验 数据 的 自 相关 性 ， 从 而 提出 
针对 性 的 解决 方案 。 常 用 的 用 于 判断 数据 是 否 存在 自 相关 的 检验 方法 有 绘制 残 差 序 列 图 、BG 
检验 、Box-Pierce Q 检验、DW 检验 等 ,解决 自 相 关 的 方法 有 使 用 自 相关 异 方差 稳健 的 标准 差 
进行 回归 以 及 使 用 广义 最 小 二 乘 回归 分 析 方 法 进行 回归 等 。 


11.2.2 ”相关 数据 来 源 


下 载 资源 :\Wwideo\chapl1\… 


下 载 资源 :\sample\chap11\ 案 例 11.2.dta 


【 例 i 2】 表 11.2 给 出 了 某 企业 经 营利 润 和 经 营 资产 的 有 关 数 据 ， 试 使 用 经 营利 润 作为 
因 变 量 ， 以 经 营 资产 作为 自 变量 ,对 这 些 数据 使 用 最 小 二 乘 回归 分 析 的 方法 进行 研究 ， 并 进行 
自 相关 检验 ， 最 终 建立 合适 的 回归 方程 模型 用 于 描述 变量 之 间 的 关系 。 


表 11.2 某 企 业经 营利 润 和 经 营 资产 的 有 关 数 据 


| 月份 | 经 营利 润 /万 元 | 经营 资产 /万 元 
|! |»s |2839 
2 12a35 286.9 
291.5 
25.19 303.33 
27.02 314.49 
le |255 31025 
66.32 456.05 
[4 |G 4703 
59.89 472.69 
512.9 
67.79 550.96 


11.2.3 ”Stata 分 析 过 程 


在 利用 Stata 进行 分 析 之 前 ， 要 把 数据 录入 到 Stata 中 。 本 例 中 有 3 个 变量 ， 分 别 是 月 份 、 
经 营利 润 和 经 营 资产 。 把 月 份 变量 设 定 为 month， 把 经 营利 润 变量 设 定 为 profit， 把 经 营 资产 
变量 设 定 为 asset， 变 量 类 型 及 长 度 采 取 系 统 默认 方式 ， 然 后 录入 相关 数据 。 相 关 操 作 已 在 第 1 
章 中 有 过 详细 讲述 。 录 入 完成 后 数据 如 图 11.24 所 示 。 
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口 paee Editor fdig - 话 fl12dol WE eye 
File Edi View Data Tools 
芒 回 燥 纪 包 加 可 了 . 

month[1] 站 | 


Value label 
| INotes 
* nil » lBDat 


F Vars:3 order Dataset Obs:49 Filter:Off Mode:Edit CAP NUM a 


图 11.24 案例 11.2 数据 


先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 骤 如 下 : 


加 进入 Stata 14.0， 打 开 相 关 数 据 文 件 ， 弹 出 主 界面 。 
在 主 界面 的 “Command” 文 本 框 中 输入 如 下 命令 。 


summarize month profit asset,detail: 本 命令 旨 在 对 数据 进行 描述 性 分 析 ， 从 总 体 上 探 
索 数据 特征 ,观测 其 是 否 存在 极端 数据 或 者 变量 间 的 量 纲 差 距 过 大 ,从 而 可 能 会 对 回 
归 分 析 结 果 造 成 不 利 影响 。 

correlate month profit asset: 本 命令 旨 在 对 数据 进行 相关 性 分 析 ， 旨 在 探索 变量 之 间 尤 
其 是 因 变 量 与 各 个 自 变量 之 间 的 相关 性 关系 ， 该 步骤 是 进行 回归 分 析 前 的 必要 准备 。 
regress profit asset: 本 命令 旨 在 对 数据 进行 回归 分 析 ， 用 于 探索 自 变量 对 因 变 量 的 影 
响 情 况 。 

vce: 本 命令 旨 在 获得 变量 的 方差 - 协 方差 矩阵 。 

test asset: 本 命令 旨 在 检验 回归 分 析 获 得 的 各 个 自 变量 系数 的 显著 性 。 

predict yhat: 本 命令 间 在 获得 因 变 量 的 拟 合 值 。 

predict exresid: 本 命令 旨 在 获得 回归 模型 的 估计 残 差 。 

tsset month: 本 命令 旨 在 把 数据 定义 为 以 month 为 周期 的 时 间 序 列 。 

scatter e 1.e: 本 命令 旨 在 绘制 残 差 与 残 差 灌 后 一 期 的 散 点 图 ， 用 于 探索 数据 是 否 存在 
一 阶 自 相关 。 

ac e: 本 命令 旨 在 绘制 残 差 的 自 相关 图 ， 用 于 探索 其 自 相关 阶 数 。 

pac e: 本 命令 旨 在 绘制 残 差 的 偏 自 相关 图 ， 用 于 探索 其 自 相 关 阶 数 。 

estat bgodfrey: 本 命令 为 BG 检验 ， 旨 在 检验 残 差 自 相关 性 。 

wntestq e: 本 命令 为 Box-Pierce Q 检验 ， 旨 在 检验 残 差 自 相关 性 。 

estat dwatson: 本 命令 为 DW 检验 ， 旨 在 检验 残 差 自 相 关 性 。 
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。 di49^0.25: 本 命令 为 计算 样本 个 数 的 1/4 次 震 ， 旨 在 确定 使 用 异 方差 自 相 关 稳健 的 标 
准 差 进行 回归 的 滞后 阶 数 。 

。 ”newey profit asset,lag(3): 本 命令 为 采用 异 方差 自 相关 稳健 的 标准 差 对 数据 进行 回归 分 
析 ， 克 服 数据 的 自 相 关 性 对 最 小 二 乘 回归 分 析 造 成 的 不 利 影响 


园 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


11.2.4 结果 分 析 


在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 11.25~ 图 11.42 所 示 的 分 析 结 果 。 
。 对 数据 进行 描述 性 分 析 的 结果 
图 11.25 是 对 数据 进行 描述 性 分 析 的 结果 。 关于 这 一 分 析 过 程 对 于 回归 分 析 的 重要 意义 已 
在 前 面 章节 中 论述 过 ， 此 处 不 再 重复 讲解 。 


加 Stein 过 计 分析 与 行业 应 用 家 (第 2 版 


Smarize month prOEIE asset,detail 


monch 

Percenciles Snallest 

a 1 

5% 3 2 
10% a 3 cbs 9 
zs* 13 4 Sun of Vat. 49 
sos 25 Jean 25 
Largeat std, Dev. 14.20069 

ss 37 46 
gos 5 7 Variapce 204.1667 
sss 47 48 Skewness 0o 
aas 9 9 Furtosis 1.799 

prof: 

P iles mal le 

1% 22.89 22.89 

ss 24.12 23.15 
10% 25.52 24.12 Obs 49 
ss 20.05 25.19 Sun of Vot. 9 
sos 34.74 mn 39.50796 
Largest Std. Dev. 13.07854 

ss 40.46 63.12 
os 59.89 64.97 Variarce 171.0482 
ss 64.97 66.32 kewncoa ,6006106 
ES 67.79 67.79 Furtosis 2.213728 

asset 

Percenciles Snallest 

1s 203.9 203.9 

3% 291.5 286.9 
10% 310.25 291.5 ops 49 
ass 332.43 303.33 Sun of Yat. 49 
sos 391.99 Neen 385.0224 
Larg=ac sea。pev- 50.03379 

ss 424.15 470.3 
os 456.05 472.69 Variarce 3604.055 
95s 472.69 512.9 Skevness .3029836 
3% 550.96 550.96 Furtosio 2.93925 


图 11.25 ”描述 性 分 析 的 结果 
在 如 图 11.25 所 示 的 分 析 结果 中 ， 可 以 得 到 很 多 信息 ， 包 括 百 分 位 数 、4 个 最 小 值 、4 个 
最 大 值 、 平 均值 、 标 准 差 、 偏 度 、 峰 度 等 。 


(1) 百 分 位 数 (Percentiles ) 
可 以 看 出 变量 month 的 第 1 个 四 分 位 数 (25%) 是 13， 第 2 个 四 分 位 数 (50%) 是 25， 
第 3 个 四 分 位 数 (75%) 是 37; 变量 profit 的 第 1 个 四 分 位 数 (25%) 是 28.85， 第 2 个 四 分 
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位 数 (50%) 是 34.74, 第 3 个 四 分 位 数 (75%) 是 48.46; 变量 asset 的 第 1 个 四 分 位 数 (25%) 
是 332.43， 第 2 个 四 分 位 数 (50%) 是 391.99， 第 3 个 四 分 位 数 (75%) 是 424.15。 


(2) 4 个 最 小 值 (Smallest ) 

变量 month 最 小 的 4 个 数据 值 分 别 是 1、2、3、4 

变量 profit 最 小 的 4 个 数据 值 分 别 是 22.89、23.15、24.12、25.19。 
变量 asset 最 小 的 4 个 数据 值 分 别 是 283.9、286.9、291.5、303.33。 


(3) 4 个 最 大 值 (Largest) 

变量 month 最 大 的 4 个 数据 值 分 别 是 46、47、48、49。 

变量 profit 最 大 的 4 个 数据 值 分 别 是 63.12、64.97、66.32、67.79。 
变量 asset 最 大 的 4 个 数据 值 分 别 是 470.3、472.69、512.9、550.96。 


(4) 平均 值 (Mean ) 和 标准 差 (Std. Dev ) 
变量 month 的 平均 值 为 23， 标 准 差 是 14.28869 。 
变量 profit 的 平均 值 为 39.50796， 标 准 差 是 13.07854。 
变量 asset 的 平均 值 为 385.0224， 标 准 差 是 60.03378。 


(5) 偏 度 ( Skewness ) 和 峰 度 (Kurtosis ) 

变量 month 的 偏 度 为 0， 为 无 偏 度 。 

变量 profit 的 偏 度 为 0.6806106， 为 正 偏 度 但 不 大 。 

变量 asset 的 偏 度 为 0.3029836， 为 正 偏 度 但 不 大 。 

变量 month 的 峰 度 为 1.799， 有 一 个 比 正 态 分 布 略 短 的 尾巴 。 
变量 profit 的 峰 度 为 2.213728， 有 一 个 比 正 态 分 布 略 短 的 尾巴 。 
变量 asset 的 峰 度 为 2.83925， 有 一 个 比 正 态 分 布 略 短 的 尾巴 。 


综 上 所 述 ， 数 据 的 总 体质 量 还 是 可 以 的 ， 没 有 极端 异常 值 ， 变 量 间 的 量 纲 差距 、 变 量 的 
偏 度 、 峰 度 也 是 可 以 接受 的 ， 可 以 进入 下 一 步 的 分 析 。 
2. 对 数据 进行 相关 性 分 析 的 结果 


图 11.26 是 对 数据 进行 相关 性 分 析 的 结果 。 关于 这 一 分 析 过 程 对 于 回归 分 析 的 重要 意义 已 
在 前 面 章节 中 论述 过 ， 此 处 不 再 重复 讲解 。 


correlate 。 month profit asset 
obo-a5) 


图 11.26 相关 性 分 析 的 结果 


在 图 11.26 中 ，profit 与 asset 之 间 的 相关 关系 还 是 可 以 接受 的 ， 可 以 进入 下 面 的 回归 分 析 


3. 对 数据 进行 回归 分 析 的 结果 
图 11.27 是 对 数据 进行 回归 分 析 的 结果 。 
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~ regress profit asset 


Source 5s 5 


Nodel 
Residual 


6528.14552 
1682.16623 


6528.14552 
35.7907709 


Toral | 8210.31175 171.048161 


Coef. 3td. Err. tpltl [95% Conf. Interval] 


profit 


13.51 
-6.30 


.1942579 
-35.28568 


.0143837 
5.603588 


.1653217 
-46.55864 


.223194 
-24.01271 


asser 
_cons 


图 11.27 回归 分 析 的 结果 


从 上 述 分 析 结果 中 ， 可 以 看 出 共有 49 个 样本 参与 了 分 析 ， 模 型 的 F 值 (1,47) = 182.40，P 
值 (Prob > F) = 0.0000, 说 明 模 型 整体 上 是 非常 显著 的 。 模 型 的 可 决 系数 (R-squared )=0.7951， 


模型 修正 的 
模型 的 


可 决 系数 (Adj R-squared) = 0.7908， 说 明 模 型 的 解释 能 力 非常 不 错 。 


回归 方程 是 : 


profit =0.1942579* asset -35.28568 


变量 asset 的 系数 标准 误 是 0.0143837，t 值 为 13.51，P 值 为 0.000， 系 数 是 非常 显著 的 ， 
95% 的 置信 区 间 为 [0.1653217, 0.223194]。 常 数 项 的 系数 标准 误 是 5.603588，t 值 为 -6.30，P 值 
为 0.000， 系 数 也 是 非常 不 显著 的 ，95% 的 置信 区 间 为 [-46.55864, -24.01271]。 


从 上 面 


的 分 析 可 以 看 出 该 企业 的 经 营利 润 与 经 营 资产 之 间 是 一 种 正 向 联动 变化 关系 ， 但 


是 经 营 资产 的 增加 仅 能 带 来 经 营利 润 近 五 分 之 一 的 增加 。 


4. 变量 的 方差 - 协 方差 矩阵 结果 
图 11.28 是 对 变量 的 方差 - 协 方差 矩阵 。 


voe 


Covariance matrix of coefficients of regress model 


asset cons 


el | 


.00020689 
-.07965709 31.400193 


assec 


_cons 


图 11.28 变量 的 方差 - 协 方差 矩阵 
从 图 11.28 中 可 以 看 出 ， 变 量 与 常数 项 系数 的 方差 与 协 方差 都 不 是 很 大 。 
5. 对 变量 系数 的 假设 检验 结果 
图 11.29 是 对 变量 系数 的 假设 检验 结果 。 


| test asset 


(1 asset=0 


rt 


1, 47) = 182.40 
Prob > F = 0.0000 


图 11.29 对 变量 系数 的 假设 检验 结果 
从 图 11.29 中 可 以 看 出 ， 模 型 非常 显著 ， 在 5% 的 显著 性 水 平 上 通过 了 检验 。 
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6. 对 因 变 量 的 拟 合 值 的 预测 
11.30 是 对 因 变 量 的 拟 合 值 的 预测 。 


eam prone 
站 


图 11.30 对 因 变 量 的 拟 合 值 的 预测 
因 变 量 预测 拟 合 值 是 根据 自 变量 的 值 和 得 到 的 回归 方程 计算 出 来 的 ， 主 要 用 于 预测 未 来 。 
在 图 11.30 中 可 以 看 到 yhat 的 值 与 profit 的 值 是 比较 相近 的 ,所 以 拟 合 的 回归 模型 还 是 不 错 的 。 
7. 回归 分 析 得 到 的 残 差 序 列 
11.31 是 回归 分 析 得 到 的 残 差 序列 。 


mm eren 
[3 


SS 


4 
的 0 


11.31 残 差 序 列 
关于 残 差 序列 的 意义 已 在 上 节 中 论述 过 ， 此 处 不 再 重复 讲解 。 
8. 以 month 为 周期 的 时 间 序 列 的 结果 
图 11.32 是 把 数据 定义 成 以 month 为 周期 的 时 间 序 列 的 结果 。 


tsset month 
time variable: month, 1 to 49 
delca: 1 nit 


11.32 以 month 为 周期 的 时 间 序列 的 结果 
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关于 时 间 序列 的 相关 概念 与 分 析 方 法 等 ， 将 在 后 续 的 章节 中 详细 进行 说 明 ， 这 里 不 再 次 述 。 


9. 散 点 图 
11.33 是 残 差 与 残 差 滞后 一 期 的 散 点 图 。 


11.33 ” 残 差 与 残 差 滞后 一 期 的 散 点 图 
从 图 11.33 中 可 以 看 出 ， 残 差 与 洁 后 一 期 的 残 差 之 间 存在 着 一 种 类 似 正 向 线性 变动 关系 ， 


所 以 数据 是 存在 自 相关 的 。 
10. 自 相关 图 
图 11.34 是 残 差 序 列 的 自 相关 图 。 
3 


T T T T 

0 5 10 15 20 
Lag 

Bartetrs formula for MA(q) 95% confidence bands 


11.34 ” 残 差 序列 的 自 相 关 图 


11.34 中 的 横 轴 表 示 兆 后 阶 数 ， 阴 影 部 分 表示 95% 的 自 相关 置信 区 间 , 在 阴影 部 分 之 外 
表示 自 相关 系数 显著 不 为 0， 从 图 11.34 中 可 以 看 出 ， 数 据 主要 是 存在 一 阶 自 相关 的 。 


11. 偏 自 相关 图 
图 11.35 是 残 差 序列 的 偏 自 相关 图 。 
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11.35” 残 差 序列 的 偏 自 相关 图 
图 11.35 中 的 横 轴 表示 滞后 阶 数 ， 阴 影 部 分 表示 95% 的 自 相关 置信 区 间 , 在 阴影 部 分 之 外 
表示 自 相关 系数 显著 不 为 0， 从 图 11.35 中 同样 可 以 看 出 ， 数 据 主要 是 存在 一 阶 自 相关 的 。 
12. BG 检验 的 检验 结果 
图 11.36 是 BG 检验 的 检验 结果 。 


+ estat bgodfrey 


Breusch-Godfrey LN test for autocorrelation 


lags (p) 


1 


11.36 ”BG 检验 的 检验 结果 
BG 检验 的 原 假设 是 数据 没有 自 相关 。 从 图 11.36 中 可 以 看 出 ，P 值 为 0.0000， 非 常 显著 
地 拒绝 了 无 自 相关 的 原 假设 ， 认 为 存在 自 相关 。 
13. Box-Pierce Q 检验 的 检验 结果 
图 11.37 是 Box-Pierce Q 检验 的 检验 结果 。 


. wntestq e 


Pportmanteau test for white noise 


Portmanteau (Q) statistic = 181.4096 
Prob > chiz (22) = 0.0000 


11.37 Box-Pierce Q 检验 的 检验 结果 


Box-Pierce Q 检验 的 原 假设 是 数据 没有 自 相 关 。 从 图 11.37 中 可 以 看 出 ，P 值 为 0.0000， 
非常 显著 地 拒绝 了 无 自 相关 的 原 假设 ， 认 为 存在 自 相关 。 


14. DW 检验 的 检验 结果 
图 11.38 是 DW 检验 的 检验 结果 。 
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estat dmatson 


Durbin-Watson d-statistic( 2, 49) = .3545385 


图 11.38 DW 检验 的 检验 结果 
DW 检验 的 原 假设 数据 没有 自 相关 。 从 图 11.38 中 可 以 看 出 ，DW 值 为 0.3545385， 远 远 
小 于 无 自 相关 时 的 值 2， 所 以 认为 存在 正 的 自 相关 。 
图 11.39 是 计算 样本 个 数 的 1/4 次 寡 的 结果 。 
图 11.39 计算 样本 个 数 的 1/4 次 赛 的 结果 
本 例 中 ， 样 本 个 数 为 49，49 的 0.25 次 方 是 2.6457513， 所 以 确定 的 滞后 阶 数 是 3。 
图 11.40 是 使 用 自 相关 异 方差 稳健 的 标准 差 对 数据 进行 回归 分 析 的 结果 。 


+ newey profit asset,1ag(3) 


Nevey-Vest 
Coef. Std. Err. 上 Pp>ltl [95* Conf, Interval] 


.1942579 .0187418 10.36 909.000 .1565543 .2319615 
-35.28568 6.344974 -5.56 0.000 -48.05012 -22.52123 


11.40 ”使 用 自 相关 异 方差 稳健 的 标准 差 对 数据 进行 回归 分 析 的 结果 


从 上 述 分 析 结 果 中 可 以 看 出 ， 模 型 整体 的 显著 性 、 自 变量 与 常数 项 系数 的 显著 性 以 及 模 
型 的 解释 能 力 依旧 很 高 。 


11.2.5 ”案例 延伸 


上 述 的 Stata 命令 比较 简洁 ,分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 

下 面 使 用 广义 最 小 二 乘 回归 分 析 方 法 解决 数据 的 异 方差 问题 。 

以 本 例 为 例 进行 说 明 ， 操 作 命令 如 下 。 

。 prais profit asset,corc: 本 命令 旨 在 对 数据 进行 以 profit 为 因 变 量 、 以 asset 为 自 变 量 的 
迭代 式 CO 估计 法 广义 最 小 二 乘 回归 分 析 。 

。e prais profit assebnolog: 本 命令 旨 在 对 数据 进行 以 profit 为 因 变 量 、 以 asset 为 自 变量 
的 迭代 式 PW 估计 法 广义 最 小 二 乘 回归 分 析 。 

在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 11.41~ 图 11.42 所 示 。 

图 11.41 是 对 数据 进行 迭代 式 CO 估计 法 广义 最 小 二 乘 回归 分 析 的 结果 。 
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55 af ms 


Wdel | 38.9070104 1 38.9070104 
lusl | 413.946232 46 9.65543962 
Totel | ss2.855242 47 10.4862817 

Coers. Std. Err. tpl [95% Conf. Intervell 

1.99 0.053 。 -.0009592 。 .1404652 

22 0.229 .9274 og12 


cinal) 。 9.354538 
ansformed) 1.927109 


图 11.41 对 数据 进行 迭代 式 CO 估计 法 广义 最 小 二 乘 回 归 分 析 的 结果 


对 本 结果 的 详细 解读 与 前 面 类 似 ， 此 处 限于 篇 幅 不 再 袭 述 。 但 值得 注意 的 是 DW 值 从 
0.354538 跃升 至 1.927109， 非 常 接近 于 没有 自 相 关 时 的 值 2， 所 以 经 过 CO 夺 代 变换 后 ， 模 型 
消除 了 自 相 关 ， 但 是 模型 的 显著 程度 和 解释 能 力 都 有 所 下 降 ， 这 也 是 必须 付出 的 代价 。 

图 11.42 是 对 数据 进行 迭代 式 PW 估计 法 广义 最 小 二 乘 回 归 分 析 的 结果 。 


prals Prorit asset,nolog 


Prais-Winsten AR reg d et 
Source 53 上 ns Number cf cba = 49 
| 
Model | 75.5863133 1 75.5863133 prob > 下 = 0.0085 
Reaiduel | 470.661312 47 10.0140705 a-aquared ~ 0.1384 
aa] R-aquered = 0.1200 
Toral | 545.247626 。 48 11.3601589 Root NSE = 3.1645 
Pear Coast， Srd. Err. 上 psltl [ess cenz 1] 
-1046879 .029304 -3.97 0.001 .049735 .1536399 
.0516432 12.70555 0.00 0.997 -25.50864 25,61192 

-9291977 


original) 。 0.354338 
nsformed) 1.861233 


11.42 ”对 数据 进行 迭代 式 PW 估计 法 广义 最 小 二 乘 回归 分 析 的 结果 
对 本 结果 的 详细 解读 与 前 面 类 似 ， 此 处 限于 篇 幅 不 再 袭 述 。 但 值得 注意 的 是 DW 值 从 
0.354538 跃升 至 1.861233， 非 常 接近 于 没有 自 相关 时 的 值 2， 所 以 经 过 PW 迭代 变换 后 ， 模 型 
消除 了 自 相 关 ， 同 样 ， 模 型 的 显著 程度 和 解释 能 力也 有 所 下 降 。 


11.3 ”实例 三 一 一 多 重 共 线 性 检验 与 应 对 


11.3.1 多重 共 线性 检验 与 应 对 的 功能 与 意义 


多 重 共 线 性 包括 严重 的 多 重 共 线性 和 近似 的 多 重 共 线性 。 在 进行 回归 分 析 时 ， 如 果 某 一 
自 变 量 可 以 被 其 他 的 自 变量 通过 线性 组 合 得 到 , 那么 数据 就 存在 严重 的 多 重 共 线 性 问题 。 近似 
的 多 重 共 线性 是 指 某 自 变量 能 够 被 其 他 的 自 变量 较 多 地 解释 , 或 者 说 自 变量 之 间 存 在 着 很 大 程 
度 的 信息 重合 。 在 数据 存在 多 重 共 线 性 的 情况 下 , 最 小 二 乘 回归 分 析 得 到 的 系数 值 仍然 是 最 优 
无 偏 估计 的 , 但 是 会 导致 系数 的 估计 值 不 准确 , 而 且 会 使 部 分 系数 的 显著 性 很 弱 ， 也 不 好 区 分 
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每 个 自 变 量 对 因 变 量 的 影响 程度 。 解决 多 重 共 线性 的 办 法 通常 有 两 种 : 一 种 是 剔除 不 显著 的 变 
量 ; 另外 一 种 是 进行 因子 分 析 提 取出 相关 性 较 弱 的 几 个 主因 子 再 进行 回归 分 析 。 


11.3.2 ”相关 数据 来 源 


F 下 载 资源 :Wideo\chap11\… 


机 下 载 资源 :\samplevchapll\ 案 例 11.3.dta 


【 例 11.3] 表 11.3 给 出 了 我 国 1996 一 2003 年 国民 经 济 主要 指标 统计 数据 。 试 使 用 国内 生 
产 总 值 作为 因 变量 ， 以 货物 周转 量 、 原 煤 、 发 电量 、 原 油 等 作为 自 变 量 ， 对 这 些 数据 使 用 最 小 
二 乘 回 归 分 析 的 方法 进行 研究 , 并 进行 多 重 共 线性 检验 ,最 终 建 立 合适 的 回归 方程 模型 用 于 描 
述 变量 之 间 的 关系 。 


表 11.3 我 国 1996 一 2003 年 国民 经 济 主要 指标 统计 数据 


年 份 | 国内 生产 总 值 / 亿 元 “| 货物 周转 量 / 亿 吨 千 米 | 原煤 / 人 
I TE 
9o8 [783450 [380890 [zs fo | | 
[1999 | 820670 |405680 |105 |1330 | 


| 160000 | 
| 2000|894420 |44320 |l00 [135560 |163000 | 
| 2001|973150 |477100 |l6 |l4880 |163960 | 


11.3.3 ”Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 要 把 数据 录入 到 Stata 中 。 本 例 中 有 6 个 变量 ， 分 别 是 年 份 、 
内 生产 总 值 、 货 物 周转 量 、 原 煤 、 发 电量 、 原 油 。 我 们 把 这 6 个 变量 分 别 设 定 为 V1、V2 
V3、V4、V5、V6， 变 量 类 型 及 长 度 采取 系统 默认 方式 ， 然 后 录入 相关 数据 。 相 关 操 作 在 第 1 
章 中 已 有 详细 讲述 。 录 入 完成 后 数据 如 图 11.43 所 示 。 


口 cea Editor td - 医 gIL3dial ow [> | 

| Fie Edit View Data Tools | 

态 加 四 吧 芭 固 了 . 
vin] 1996 


Vars: 6 Order Dataset Obs:8 Fiter:Off Mode:Edit CAF NUM = 
| 


11.43 ”案例 11.3 数据 
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进入 Stata 14.0， 打 开 相关 数据 文件 ， 弹 出 主 界面 。 
加 在 主 界面 的 “Command” 文 本 框 中 输入 如 下 命令 。 


summarize V1 V2 V3 V4 V5 V6,detail: 本 命令 旨 在 对 数据 进行 描述 性 分 析 ， 从 总 体 
上 探索 数据 特征 ,观测 其 是 否 存 在 极端 数据 或 者 变量 间 的 量 纲 差 距 过 大 ， 从 而 可 能 会 
对 回归 分 析 结果 造成 不 利 影响 。 

correlate V1V2V3V4V5V6: 本 命令 间 在 对 数据 进行 相关 性 分 析 ， 旨 在 探索 变量 之 
间 尤 其 是 因 变 量 与 各 个 自 变量 之 间 的 相关 性 关系 ,该 步骤 是 进行 回归 分 析 前 的 必要 准 
备 。 

regress V2V3V4V5V6: 本 命令 旨 在 对 数据 进行 回归 分 析 ， 探 索 自 变量 对 因 变 量 的 
影响 情况 。 

estat vif， 本 命令 旨 在 对 模型 进行 多 重 共 线性 检验 。 

regress V2 V3 V4 V6: 本 命令 旨 在 上 步 的 基础 上 剔除 最 大 的 方差 膨胀 因子 然后 再 重 
新 进行 回归 。 

estat vif: 本 命令 旨 在 对 新 模型 进行 多 重 共 线性 检验 。 

regress V2 V3 V4: 本 命令 旨 在 上 步 的 基础 上 别 除 最 大 的 方差 膨胀 因子 ， 然 后 再 重新 
进行 回归 。 

estat vif; 本 命令 旨 在 对 新 模型 进行 多 重 共 线性 检验 。 

regress V2 V3: 本 命令 旨 在 上 步 的 基础 上 别 除 P 值 不 显著 的 变量 后 再 重新 进行 回归 。 


辆 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


11.3.4 结果 分 析 


在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 11.44~ 图 11.52 所 示 的 分 析 结 果 。 

1. 对 数据 进行 描述 性 分 析 的 结果 

图 11.44 是 对 数据 进行 描述 性 分 析 的 结果 。 关 于 这 一 分 析 过 程 对 于 回归 分 析 的 重要 意义 已 
在 前 面 章节 中 论述 过 ， 此 处 不 再 重复 讲解 。 
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[Sarize VI VI VI VI V5 96rGEEaTT 


va 
vy 
Percentiles smalleac 
Percentiles Smallest 各 3 
二 1996 1996 10 10.5 
5 1996 1997 10 11.6 bs 者 
os 1996 1998 Cbs 8 11.05 12.5 Sun of Wor. 8 
pss 1997.5 1999 Sum of hat. a 
13.1 Nean 12.85 
ko 1999.5 ei 1999.5 Largest Sta. Dev. 2.174528 
Largeat sa, new 2.44940 13.9 13.7 
2001.5 2000 16.7 13.8 Variance 4.728571 
2003 2001 Variance s 16.7 14 Skewness .325807 
2003 2002 Sevneas o 15.7 16.7 Kurtosis 2.349168 
2003 2003 Kurtosis 1.761905 
vs 
ve 
Percentiles Salleat 
percentlles Smallesr 10813 10813 
1 67684.6 67884 .6 10813 11356 
所 67883 .5 74462.6 10013 11670 ops 8 
ho 67884 .5 78345 cps 3 11513 12393 Sum of Wgt. 8 
Fs: 76403.8 82067 Sum of Vat. 8 
12974.5 Hean 13780.25 
Eo 85754.5 Hean B8992.51 Largeat Sra. Dev. 2882 .102 
Largeat Sed, bev. 16681.17 i i 
Gd nto ot 19106 14808 Variance 8306510 
Sa i et 
19106 19106 uccoaia 2.364367 
9 117251.9 117251.9 Kurtosis 2.043855 
ve 
i i Percenviles oalleat 
1 36590 36590 eh shiek 
四 36590 38089 SS 
ho 36590 30905 oba a L933 DE Oe . 
ps 30237 #0560 Sm of ge. 日 aa 3 nm 
so: 2444.7 Hean 43776 16200 Bean 216292.99 
i Sed, av: 6420.092 Largest Sed, Dev. 397.3187 
ss 49196 321 16548 16300 
os 53859 47710 Variance 12et07 16960 16396 Variance 157862.1 
5 53859 50686 Skewness .3874834 16960 16700 Skewness .4391698 
es 53859 53859 Kurtosis 1.663573 16960 16960 Kurtosis 2.237363 


在 如 图 11.44 所 示 的 分 析 结 果 中 可 以 看 出 , 数据 的 总 体质 量 还 是 可 以 的 , 没有 极端 异常 值 ， 
变量 间 的 量 纲 差距 、 变 量 的 偏 度 、 峰 度 也 是 可 以 接受 的 ， 可 以 进行 下 一 步 的 分 析 。 

2. 对 数据 进行 相关 性 分 析 的 结果 

图 11.45 是 对 数据 进行 相关 性 分 析 的 结果 。 关于 这 一 分 析 过 程 对 于 回归 分 析 的 重要 意义 已 


图 11.44 ”对 数据 进行 描述 性 分 析 的 结果 


在 前 面 章节 中 论述 过 ， 此 处 不 再 重复 讲解 。 


,oorrelate Vl V2 V3 V4 V5 v6 


在 图 11.45 中 ， 变 量 间 的 相关 系数 非常 大 ， 这 意味 着 变量 间 存 在 很 高 程度 的 信息 重合 ， 模 


(obs=8) 


1.0000 
0.4788 
0.4517 


1.0000 
0.9713 


图 11.45 ”对 数据 进行 相关 性 分 析 的 结果 


型 很 有 可 能 存在 多 重 共 线性 问题 。 
3. 对 数据 进行 回归 分 析 的 结果 
图 11.46 是 对 数据 进行 回归 分 析 的 结果 。 
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|. regress V2 V3 V4 V5 V6 
Source ss dr ms Nuber of obs = 8 
F( av 3) = 348.28 

Hodel | 1.9436e+09 4 485910915 Prop > 了 = 0.0002 
Residual | 4185548.75 3 1395182.92 R-squared = 0.9979 
adj R-squared = 0.9950 

Toral | 1.9478e+09 了 278261315 Root HSE = 1181.2 
ve Coef. Std. Err. 上 PF>Itl [95% Conf. Incerval] 

va -0040429 .5633146 0.01 0.995 -1.788676 1.796761 

V4 | -931.3118 327.7201 -2.84 0.066 -1974.263 111.6399 

v5 4.686809 1.391856 3.37 0.043 .2573033 9.116316 

ve 10.28367 4.790103 2.15 0.121 -4.960572 25.52792 
_cons | -131250.3 68579.04 -1.91 0.152 -349499.4 86998.81 


图 11.46 ”对 数据 进行 回归 分 析 的 结果 


从 上 述 分 析 结 果 中 可 以 看 出 共有 8 个 样本 参与 了 分 析 ， 模 型 的 F 值 (4, 3) = 348.28，P 值 
(Prob > F) = 0.0002, 说 明 模型 整体 上 是 非常 显著 的 。 模型 的 可 决 系数 (R-squared) = 0.9979， 
模型 修正 的 可 决 系数 (Adj R-squared) = 0.9950， 说 明 模 型 的 解释 能 力 非常 不 错 。 
模型 的 回归 方程 是 : 


V2=0.0040429*V3-931.3118*V4+4.686809*V5+10.28367*V6-131250.3 


变量 V3 的 系数 标准 误 是 0.5633146，t 值 为 0.01，P 值 为 0.995， 系 数 是 非常 不 显著 的 ， 
95% 的 置信 区 间 为 [-1.788676,1.796761]。 变 量 V4 的 系数 标准 误 是 327.7201，t 值 为 -2.84，P 
值 为 0.066， 系 数 的 显著 程度 不 高 ，95% 的 置信 区 间 为 [-1974.263，111.6399]。 变 量 V5 的 系数 
标准 误 是 1.391856,t 值 为 3.37,P 值 为 0.043, 系数 是 非常 显著 的 ,95% 的 置信 区 间 为 [0.2573033， 
9.116316]。 变 量 V6 的 系数 标准 误 是 4.790103，t 值 为 2.15，P 值 为 0.121， 系 数 是 非常 不 显著 
的 ，95% 的 置信 区 间 为 [-4.960572, 25.52792]。 常 数 项 的 系数 标准 误 是 68579.04, t 值 为 -1.91, P 
值 为 0.152， 系 数 也 是 非常 不 显著 的 ，95% 的 置信 区 间 为 [-349499.4, 86998.81]。 

从 上 面 的 分 析 可 以 看 出 ， 国 内 生产 总 值 与 货物 周转 量 、 原 煤 、 发 电量 、 原 油 等 变量 进行 
回归 得 到 的 模型 中 部 分 变量 的 系数 非常 不 显著 ,而 且 原煤 产量 的 系数 居然 是 负 值 , 这 显然 是 不 
符合 现实 情况 的 ， 造 成 这 些 现象 的 根源 就 在 于 模型 存在 着 程度 比较 高 的 多 重 共 线 性 问题 。 


4. 对 模型 进行 多 重 共 线 性 检验 的 结果 
图 11.47 是 对 模型 进行 多 重 共 线 性 检验 的 结果 。 


.estat vif 

Variable | VIF VIF 

vs 80.74 0.012386 

v3 65.62 0.015239 

ve 18.17 。 0.055026 

Va 2.55 。 0.392461 
和 


图 11.47 对 模型 进行 多 重 共 线 性 检验 的 结果 


从 图 11.47 中 可 以 看 出 ，Mean VIF 的 值 是 41.77, 远 远 大 于 合理 值 10， 所 以 模型 存在 较 高 
程度 的 多 重 共 线 性 ， 其 中 V5 的 方差 膨胀 因子 最 高 ， 即 80.74， 所 以 需要 将 V5 剔除 以 后 重新 进 
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regress V2 V3 V4 V6 
Source ss 上 umber of obs = 8 
全 4) = 128.49 

Model | 1.9278e+09 3 642607998 Prop > 了 = 0.0002 
Residual | 20005214.2 4 5001303.55 R-squared = 0.9897 
adj R-squared = 0.9820 

Toral | 1.9478e+09 7 278261315 Root NSE = 2236.4 
Ve Coef. Std. Err. 上 Pp>ltl [95% Conf. Interval] 

v3 1.671362 .5085665 3.29 0.030 .2593548 。 3.083369 

Va | -182.1422 455.5875 -0.40 0.710 -1447.056 1082.771 

vs 15.5194 。 8,578151 1.81 0.145 -8.297364 39.33617 
_cons -234533 116132.3 -2.02 0.114 -556967.8 87901.88 


图 11.48 ”重新 进行 回归 的 结果 


关于 本 结果 的 详细 解读 方式 ， 前 面 多 有 提 及 ， 限 于 篇 幅 不 再 资 述 。 
图 11.49 是 对 新 模型 进行 多 重 共 线性 检验 的 结果 。 


0.067020 
0.727967 


Nean VIF 


11.49 ”对 新 模型 进行 多 重 共 线性 检验 的 结果 
从 图 11.49 中 可 以 看 出 ，Mean VIF 的 值 是 10.85, 接近 合理 值 10， 所 以 模型 的 多 重 共 线性 
得 到 了 很 大 程度 的 改善 ， 下 面 噜 除 目前 最 大 的 方差 膨胀 因子 V6， 继 续 进 行 回归 。 
图 11.50 是 在 上 步 的 基础 上 剔除 最 大 的 方差 膨胀 因子 再 重新 进行 回归 的 结果 。 


regress V2 V3 V4 


Source SS df ns Number of obs = 8 
r( 2, 5) = 131.37 

Model | 1.9115e+09 2 955727052 Prob > 了 = 0.0000 
Residual | 36375104.5 5 7275020.9 R-squared = 0.9813 
adj R-squared = 0.9739 


Coef. Std. Err. [95* Conf. 


Toral | 1.9478e+09 7 278261315 Root NSE = 2697.2 
Interval] 


2.555185 。 .1705049 2.116889 2.993482 
va 148.2452 503.3999 0.29 0.780 -1145.785 1442.276 
_cons | -24768.24 7955.57 -3.11 0.026 -45218.68 -4317.793 


11.50 重新 进行 回归 的 结果 


关于 本 结果 的 详细 解读 方式 ， 前 面 多 有 提 及 ， 限 于 篇 幅 不 再 袭 述 。 

图 11.51 是 对 新 模型 进行 多 重 共 线 性 检验 的 结果 。 

从 图 11.51 中 可 以 看 出 ，Mean VIF 的 值 是 1.15， 远 远 小 于 合理 值 10， 所 以 模型 的 多 重 共 
线性 得 到 了 很 大 程度 的 改善 。 但 是 根据 图 11.50 所 示 的 结果 ，V4 的 系数 并 不 显著 ， 可 以 把 V4 
也 剔除 ， 再 重新 进行 回归 。 


232 


VANANWNWNA WN NANANAN\NN\ 
NN NR 
NANN \\N\ 
AN \\ NA \ WN 
\\ NANNN NANNNN \\\ NANNNNN 
\ 第 11 章 ”Stata 回 归 诊 断 与 应 对 \ 
WAN 


estat vif 
Variable VIF LVIF 
四 1.15 0.867321 
va 1.15 -0.867321 
Nean VIF 1.15 


NAN \ 
\ \N 
A 
\ NN 
\ NN 
11.51 对 新 模型 进行 多 重 共 线性 检验 的 结果 


图 11.52 是 在 上 步 的 基础 上 吻 除 系数 不 显著 的 变量 再 重新 进行 回归 的 结果 。 


gr v2v3 
Source ss ar ms Number of obs = a 

rl 1 5) = 309.81 

Nodel | 1.9108e+09 1 1.9108e+09 Prob > 了 = 0.0000 
Residual | 37006017.3 6 6167669.55 R-squared = 0.9810 

aaj R-squared = 0.9778 

| Toral | 1.9478e+09 7 278261315 Root HSE = 2483.5 
| v2 Coef. Std. Err. < Pp>ltl [95% Conf, Interval] 
v3 2.573475 .1462077 17.60 0.000 2.215718 2.931232 

_cons | -23663.93 6460.335 -3.66 0.011 -39471.81 -7856.063 


11.52 重新 进行 回归 的 结果 


从 图 11.52 中 可 以 看 出 ， 模 拟 的 整体 显著 性 、 模 型 的 解释 能 力 、 模 型 中 各 变量 和 常数 项 的 
系数 显著 性 都 达到 了 近乎 完美 的 状态 。 最 终 的 结论 是 参与 分 析 的 变量 中 , 货物 周转 量 能 够 最 大 
程度 地 解释 国内 生产 总 值 ， 货 物 周转 量 越 大 ， 国 内 生产 总 值 也 就 越 大 。 


11.3.5 “案例 延伸 


上 述 的 Stata 命令 比较 简洁 ， 分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 

下 面 使 用 因子 分 析 方 法 解决 模型 的 多 重 共 线性 问题 。 

以 本 例 为 例 进行 说 明 ， 操 作 命令 如 下 。 


factor V3 V4 V5 V6,pcf: 本 命令 虽 在 对 V3、V4、V5、V6 变量 提取 公 因 子 。 
predict fl: 本 命令 旨 在 产生 已 提取 的 公 因子 变量 fl 。 

reg V2 fl: 本 命令 旨 在 以 V2 为 因 变 量 ， 以 fl 为 自 变 量 进行 最 小 二 乘 回归 分 析 。 
vif， 本 命令 旨 在 对 模型 进行 多 重 共 线性 检验 。 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 11.53~ 图 11.56 所 示 。 

图 11.53 是 对 V3、V4、V5、V6 变量 提取 公 因 子 的 结果 。 对 本 结果 的 解读 已 有 详细 表述 ， 
此 处 限于 篇 幅 不 再 歼 述 。 

图 11.54 是 因子 分 析 得 到 的 公 因 子 变量 fl 以 及 因子 得 分 系数 情况 。 
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ecion Nber of cba  - 
ipal-conponert. factors Recained factors = 
: (unrotated) Number of Farams = 


Eigenvalue ”Difference Froportion 。 Cumulacive 


3.20006 2.44539 09.9000 0.9000 
9.75467 0.71659 0.1887 0.9887 
0.03808 0.03089 0.0095 0.9982 
9.00718 9.0018 1.0000 


: independert vs. saturated; chi2(6) = 42.71 Prob>chiz = 0.0000 


11.53 对 V3、V4、V5、V6 变量 提取 公 因 子 的 结果 


a 中 w% 3 n 
1 2396 346530 2 2681 733 

Teorors 2 1997 109 1 us6 e074 -006 
3 3999 heowy 2 ak79 aao0 

攻 人 

0.18001 

i s 2000 4 0021 30 ss6 1000 nnn 

a ‘ 2001 ns 477lo 6 on 41696 so 
7 ooz 08373 okak -8 e440 aeroo 上 
. 300 A4791,9 es 67 9406 0m00 有 


图 11.54 ”因子 得 分 系数 矩阵 
根据 图 11.54 展示 的 因子 得 分 系数 和 矩阵， 可 以 写 出 公 因 子 的 表达 式 。 值 得 一 提 的 是 ， 在 表 
达 式 中 各 个 变量 已 经 不 是 原始 变量 ， 而 是 标准 化 变量 。 
表达 式 如 下 : 
fl= 0.30188* 货 物 周转 量 + 0.18001* 原 煤 + 0.30919* 发 电量 + 0.30556* 原 油 


图 11.55 是 以 V2 为 因 变量 、 以 ff 为 自 变量 进行 最 小 二 乘 回归 分 析 的 结果 。 


wm 
了 ( 1 5) = 103.71 

Residual 106524045 6 17754007.5 R-squared = 0.9453 
adj R-squared = 0.9362 


图 11.55 ”以 V2 为 因 变 量 、 以 fl 为 自 变量 进行 最 小 二 乘 回归 分 析 的 结果 


从 图 11.55 中 可 以 看 出 , 模拟 的 整体 显著 性 、 模 型 的 解释 能 力 、 模 型 中 各 变量 和 常数 项 的 
系数 显著 性 都 达到 了 近乎 完美 的 状态 。 
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图 11.56 是 对 模型 进行 多 重 共 线 性 检验 的 结果 。 


Variable VIPF AVIF 
£1 1.00 1.000000 
Nean VIF 1.00 


11.56 ”对 新 模型 进行 多 重 共 线 性 检验 的 结果 


从 图 11.56 中 可 以 看 出 ，Mean VIF 的 值 是 1， 远 远 小 于 合理 值 10， 所 以 模型 的 多 重 共 线 
性 得 到 了 很 大 程度 的 改善 。 


11.4 ”本 章 习 题 


(1) 某 闭 名 跨国 公司 拥有 自己 的 一 套 职员 评价 体系 ， 搜 集 并 整理 了 公司 内 部 133 名 职员 
的 相关 数据 ， 如 表 11.4 所 示 。 表 中 的 内 容 包括 职员 的 年 薪 、 工 作 年 限 、 学 历 职称 、 工 作 能 力 、 
敬业 精神 5 部 分 的 内 容 ， 试 使 用 职员 年 薪 作 为 因 变 量 ， 以 职员 的 工作 年 限 、 学 历 职称 、 工 作 能 
力 、 敬 业 精 神 作为 自 变量 ， 对 这 些 数据 使 用 最 小 二 乘 回归 分 析 的 方法 进行 研究 ,并 进行 异 方差 
检验 ， 最 终 建立 合适 的 回归 方程 模型 用 于 描述 变量 之 间 的 关系 。 


表 11.4 某 著名 跨国 公司 搜集 整理 的 133 名 职员 的 相关 数据 


编号 职员 年 薪 工作 年 限 学 历 职称 工作 能 力 敬业 精神 
1 5.872 118 5.327 876 
2 5.860 786 5.010 635 
3 5.673 323 5.043 425 
4 5.010 635 5.236 442 
5 5.342 334 5.187 386 5.135 798 
6 5.983 936 5.117 994 
130 5.081 404 5.181 784 5.181 784 
131 5.446 737 5.765 191 5.293 305 
132 10.627 12 9.064 389 5.411 646 5.579 73 5.204 007 
133 10.778 81 9.081029 5.442 418 5.814 131 5.247 024 


(2) 表 11.5 给 出 了 某 旅游 景点 游客 量 和 资金 投入 的 有 关 数 据 , 试 使 用 游客 量 作为 因 变 量 ， 
以 资金 投入 作为 自 变量 , 对 这 些 数据 使 用 最 小 二 乘 回归 分 析 的 方法 进行 研究 , 并 进行 自 相关 检 
验 ， 最 终 建立 合适 的 回归 方程 模型 用 于 描述 变量 之 间 的 关系 。 
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表 11.5 某 旅游 景点 游客 量 和 资金 投入 的 有 关 数 据 


月 份 游客 量 /万 人 资金 投入 /万 元 
1 21.45 282.9 

和 23.01 285.9 

3 24.08 290.9 

4 25.07 302.9 

5 26.99 315.98 

6 


26.01 310.25 


45 65.99 455.99 


46 64.01 470.29 
47 58.96 473.01 
48 57.98 511.99 
49 68.99 551 


(3) 表 11.6 给 出 了 我 国 1992 一 2000 年 国民 经 济 主要 指标 统计 数据 。 试 使 用 国内 生产 总 
值 作为 因 变量 ， 以 货物 周转 量 、 原 煤 、 发 电量 、 原 油 等 作为 自 变 量 ， 对 这 些 数据 使 用 最 小 二 乘 


量 之 间 的 关系 。 
表 11.6 我 国 1992 一 2000 年 国民 经 济 主要 指标 统计 数据 


回归 分 析 的 方法 进行 研究 , 并 进行 多 重 共 线性 检验 , 最 终 建立 合适 的 回归 方程 模型 用 于 描述 变 


年 份 发 电量 / 亿 千 瓦 时 ”原油 万 吨 
1992 | 26 638.1 7 539.0 14210.0 
1993 11.5 8 394.0 14 524.0 
1994 12.4 9 281.0 14608.0 
1995 13.6 10077.0 15 005.0 
1996 14.0 10 813.0 15 733.0 
1997 13.7 11 356.0 16 074.0 
1998 把 必 11 670.0 16 100.0 
1999 | 82 067.0 12 393.0 16 000.0 
2000 | 89 403.5 | 44452.0 10.0 | 13 556.0 16 300.0 
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前 面 讲 述 的 回归 分 析 方 法 都 属于 线性 回归 的 范畴 ， 即 因 变 量 和 自 变量 之 间 存 在 线性 关系 。 
在 很 多 情况 下 , 线性 模型 是 对 真实 情况 的 一 种 合理 但 又 简单 的 近似 。 如 果 遇 到 回归 参数 不 是 线 
性 的 , 也 不 能 通过 转换 的 方法 将 其 转换 为 线性 的 参数 , 又 该 如 何 处 理 呢 ?这 时 候 就 需要 用 到 本 
章 将 要 讲述 的 非 线性 回归 分 析 。 常 用 的 非 线性 分 析 方法 有 3 种 ,包括 非 参 数 回 归 分 析 、 转 换 变 
量 回 归 分 析 以 及 非 线性 回归 分 析 。 下 面 就 以 实例 的 方式 一 一 介绍 这 几 种 方法 在 Stata 中 的 应 用 。 


n 


12.1 实例 一 一 一 非 参 数 回归 分 析 


12.1.1“” 非 参 数 回归 分 析 的 功能 与 意义 


非 参 数 回归 分 析 (Nonparametric Methods) 与 前 面 讲述 的 回归 方式 区 别 很 大 ， 是 一 种 探索 
性 工具 , 通常 不 会 像 其 他 回归 方法 一 样 形成 一 个 明确 的 回归 方程 , 基本 上 是 展示 因 变 量 与 自 变 
量 之 间 关 系 的 图 形 工具 。 其 优势 在 于 在 不 要 求 研究 者 事先 设 定 模型 的 情况 下 就 可 直观 、 概要 地 
描述 数据 。 


12.1.2 ”相关 数据 来 源 


Ed 下 载 资源 :\Wideo\chap12\… 


下 载 资源 :\sample\chap12\ 案 例 12.1.dta 


【 例 12.1】 某 国内 保险 公司 采取 区 域 事业 部 制 的 组 织 机 构 模式 ， 在 国内 有 两 个 事业 部 : 
北方 事业 部 和 南方 事业 部 。 该 公司 对 其 客户 经 理 制定 了 严格 的 激励 约束 措施 , 客户 经 理 的 薪酬 
为 基本 工资 乘 以 绩效 考核 系数 ， 绩 效 考核 系数 上 不 封 项 、 下 不 保底 ， 所 以 客户 经 理 之 间 的 收入 
差距 很 大 。 某 研究 者 随机 抽取 的 部 分 客户 经 理 的 历年 考核 系数 如 表 12.1 所 示 ， 请 用 非 参数 回 
归 方法 研究 年 份 和 绩效 考核 系数 两 个 变量 之 间 的 关系 。 


表 12.1 某国 内 保险 公司 客户 经 理 绩效 考核 系数 表 


所 属 事业 部 
北方 事业 部 
北方 事业 部 
北方 事业 部 
北方 事业 部 


北方 事业 部 


人 人 从 
\\\ WANAAAAAAA \ \\\ 
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\\ 


南方 事业 部 
南方 事业 部 
南方 事业 部 


12.1.3 ”Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 要 把 数据 录入 到 Stata 中 。 本 例 中 有 3 个 变量 ， 分 别 为 所 属 事 
业 部 、 年 份 和 绩效 考核 系数 。 把 所 属 事业 部 变量 设 定 为 region， 并 且 把 北方 事业 部 设 定 为 1， 
把 南方 事业 部 设 定 为 2， 把 年 份 变量 定义 为 year， 把 绩效 考核 系数 定义 为 coefficient， 变 量 类 
型 及 长 度 采取 系统 默认 方式 , 然后 录入 相关 数据 。 相 关 操 作 在 第 1 章 中 已 有 详细 讲述 。 录 入 完 
成 后 数据 如 图 12.1 所 示 。 


了 pam Editor (Edio - [过 人 M12.1.dta] 


File Edit View Data Tools 
富 回 吧 汉 马 国 和 了: 
regionDl 1 
| pr Variables 了 
* ™ Filter variabl 
= 
回 Name Label 
4 Fregion 
s year 
入 0 ml coefficient 
， aa 。 
3 aa 
a 1 ao 的 对 Veriobles (Srpshod 
因 os Es 日 
1 1 04 2 Cr 
2 Name regio 
一 Label 
四 i 到 Type byte 
29 1 1 Fama %809 
:am value label 
2 3 ce a Notes 
a 2 FETS 27 7 Be Datn 
区 上 Filename 这 例 12.1dia 二 
Vars: 3 Drder Dataset Obs:70 Fiter:Of Mode:Edit NUM : 


12.1 案例 12.1 数据 

先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 又 如 下 : 

进入 Stata 14.0， 打 开 相 关 数 据 文件 ， 弹 出 主 界面 。 

贺 在 主 界面 的 “Command” 文 本 框 中 输入 如 下 命令 。 

。 Summarize year coefficient,detail: 本 命令 的 含义 是 对 年 份 和 绩效 考核 系数 进行 描述 性 
分 析 ， 简 要 探索 数据 特征 ， 从 整体 上 对 数据 有 一 个 清晰 直观 的 把 握 。 

。 ”twoway line coefficient year: 本 命令 的 含义 是 对 运用 Stata 的 制图 功能 ， 描 述 年 份 和 绩 
效 考 核 系 数 之 间 的 变化 关系 。 

egraph twoway mband coefficient year || scatter coefficient year: 本 命令 的 含义 是 对 数据 进 
行 非 参数 回归 并 且 绘 制 年 份 和 绩效 考核 系数 之 间 的 散 点 图 。 

® graph twoway mband coefficient year || scatter coefficient year || :by(region): 本 命令 的 含 
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义 是 以 事业 部 为 分 类 对 数据 进行 非 参 数 回归 , 并 且 绘制 年 份 和 绩效 考核 系数 之 间 的 散 


点 图 。 
。 lowess coefficient year if region==1: 本 命令 是 对 数据 进行 修 匀 ， 这 是 非 参数 回归 的 
另外 一 种 重要 形式 。 


egraph twoway lowess coefficient year if region==1 || scatter coefficient year: 本 命令 旨 在 


把 修 匀 命令 融合 到 非 参 数 回归 中 。 
国 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


12.1.4 结果 分 析 


在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 12.2~ 图 12.7 所 示 的 分 析 结 果 。 

1. 对 数据 进行 描述 性 分 析 的 结果 

图 12.2 是 对 数据 进行 描述 性 分 析 的 结果 。 关 于 这 一 分 析 过 程 对 于 回归 分 析 的 重要 意义 在 
前 面 章 节 中 已 经 论述 过 ， 此 处 不 再 重复 讲解 。 


sumarize year coefficientvdetail 


year 


Percentiles Smallest 
2000 2000 


2000 2000 
2001 2000 E29 70 
2002 2000 Sum of Wgt. 70 


2005 Nean 2004.971 
argcar Sed. Dev. 3.1713 
2010 
2010 Variance 10.05714 
2010 Skewness -.0176288 
2010 Kurtosis 1.701294 


coetficient 


os 70 
Sum of Wot. 70 


Nean 1.735429 
Scd. Dev. .5549636 


Variance .3079046 
Skewness .0567911 
Kurtosis 2.24893 


12.2 ”对 数据 进行 描述 性 分 析 


在 如 图 12.2 所 示 的 分 析 结 果 中 ， 可 以 得 到 很 多 信息 ， 包 括 百 分 位 数 、4 个 最 小 值 、4 个 最 
大 值 、 平 均值 、 标 准 差 、 偏 度 、 峰 度 等 。 


(1) 百 分 位 数 (Percentiles ) 

可 以 看 出 变量 year 的 第 1 个 四 分 位 数 (25%) 是 2002， 第 2 个 四 分 位 数 (50%) 是 2005， 
第 3 个 四 分 位 数 (75%) 是 2008; 变量 coefficient 的 第 1 个 四 分 位 数 (25%) 是 1.24， 第 2 个 
四 分 位 数 (50%) 是 1.78， 第 3 个 四 分 位 数 〈75%) 是 2.1。 


(2) 4 个 最 小 值 (Smallest ) 
变量 year 最 小 的 4 个 数据 值 分 别 是 2000、2000、2000、2000。 
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变量 coefficient 最 小 的 4 个 数据 值 分 别 是 0.73、0.75、0.84、0.89。 


(3) 4 个 最 大 值 (Largest) 
变量 year 最 大 的 4 个 数据 值 分 别 是 2010、2010、2010、2010。 
变量 coefficient 最 大 的 4 个 数据 值 分 别 是 2.7、2.8、2.86、2.9。 


(4) 平均 值 (Mean ) 和 标准 差 (Std. Dev ) 
变量 year 的 平均 值 为 2004.971， 标 准 差 是 3.1713 。 
变量 coefficient 的 平均 值 为 1.735429， 标 准 差 是 0.5549636。 


(5) 偏 度 (Skewness) 和 峰 度 (Kurtosis ) 

变量 year 的 偏 度 为 -0.0176288， 为 负 偏 度 但 不 大 。 

变量 coefficient 的 偏 度 为 0.0567911， 为 正 偏 度 但 不 大 。 

变量 year 的 峰 度 为 1.781294， 有 一 个 比 正 态 分 布 略 短 的 尾巴 。 

变量 coefficient 的 峰 度 为 2.24893， 有 一 个 比 正 态 分 布 略 短 的 尾巴 。 

综 上 所 述 ， 数 据 的 总 体质 量 还 是 可 以 的 ， 没 有 极端 异常 值 ， 变 量 间 的 量 纲 差距 、 变 量 的 
偏 度 、 峰 度 也 是 可 以 接受 的 ， 可 以 进行 下 一 步 的 分 析 。 


2. 描述 年 份 和 绩效 考核 系数 之 间 的 关系 图 
图 12.3 是 运用 Stata 的 制图 功能 描述 年 份 和 绩效 考核 系数 之 间 变 化 关系 的 结果 。 


四 


加 


2000 2002 2004 2006 2008 2010 
year 


图 12.3 描述 年 份 和 绩效 考核 系数 之 间 的 关系 图 
从 图 12.3 中 可 以 看 出 使 用 普通 的 绘图 方式 来 描述 年 份 和 绩效 考核 系数 之 间 的 变化 关系 是 
非常 不 清晰 的 ， 所 以 很 有 必要 进行 非 参 数 回归 来 描述 这 种 关系 。 
3. 绘制 散 点 图 
图 12.4 是 对 数据 进行 非 参 数 回归 并 且 绘 制 年 份 和 绩效 考核 系数 之 间 的 散 点 图 的 结果 。 


240 


NAN \ 

AAAN \ \ 
\\\ \ \ 
WW \ 


第 12 章 ”Stata 非 线性 回归 分 析 \ 
AA 


12.4 散 点 图 


从 图 12.4 可 以 看 出 散 点 图 被 分 成 了 8 个 简直 等 宽 的 波段 ， 并 使 用 线段 将 每 一 波段 内 的 中 
位 数 (年 份 的 中 位 数 、 绩 效 考核 系数 的 中 位 数 ) 连接 起 来 ， 这 条 线段 直观 描绘 了 绩效 考核 系数 
随 年 份 的 变化 走势 。 可 以 认为 ， 绩 效 考核 系数 跟 年 份 之 间 是 一 种 高 度 波动 关系 ， 从 2000 年 开 
始 到 2010 年 ， 被 观测 的 客户 经 理 的 绩效 考核 系数 先 下 降 又 上 升 ， 再 下 降 又 上 升 ， 又 下 降 。 

图 12.5 是 以 事业 部 为 分 类 ， 对 数据 进行 非 参 数 回归 并 且 绘制 年 份 和 绩效 考核 系数 之 间 的 
散 点 图 的 结果 。 


De 
2000 2005 20100000 2005 2010 


Year 


Geaphe by regon 


图 12.5 ”以 事业 部 为 分 类 
从 图 12.5 可 以 看 出 北方 事业 部 和 南方 事业 部 的 绩效 考核 系数 的 整体 走势 是 很 相近 的 ， 但 
是 南方 事业 部 的 波动 要 相对 平滑 一 下 。 
图 12.6 是 对 数据 进行 修 色 的 结果 。 


Lowess smoother 


o 


Es: 


12.6 ”对 数据 进行 修 匀 
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从 图 12.6 可 以 看 出 ， 在 修 匀 的 情况 下 绩效 考核 系数 围绕 着 一 条 值 约 为 1.6 的 中 轴线 上 下 
波动 。 可 以 初步 判定 该 公司 的 客户 经 理 的 绩效 水 平 是 比较 高 的 。 
图 12.7 是 把 修 匀 命令 融合 到 非 参数 回归 中 的 结果 。 


各 


T T 
2000 2002 2004 2006 2008 2010 
year 


图 12.7 分 析 结 果 图 
该 结果 与 图 12.6 所 示 的 结果 是 一 致 的 。 
12.1.5 “案例 延伸 
上 述 的 Stata 命令 比较 简洁 ， 分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 


的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 


1. 延伸 1: 设 定 散 点 图 被 分 成 垂直 等 宽 波段 的 数量 
例如 ， 我 们 要 把 散 点 图 分 成 10 段 垂直 等 宽 的 波段 ， 那 么 操作 命令 就 是 : 


graph twoway mband coefficient year,bands (10) || scatter coefficient year 


在 命令 窗口 输入 命令 并 按 回 车 键 进 行 确认 ， 结 果 如 图 12.8 所 示 。 


一 一 一 Median bands ® coefficient 
图 12.8 分 析 结 果 图 


从 上 面 的 分 析 结 果 中 可 以 看 出 ， 相 对 于 系统 默认 设 定 ， 散 点 图 得 到 了 更 加 细致 的 划分 
绩效 考核 系数 走势 也 更 加 清晰 明朗 。 
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以 事业 部 为 分 类 对 数据 进行 非 参数 回归 ， 并 且 把 散 点 图 分 成 10 段 垂 直 等 宽 的 波段 的 操作 
命令 如 下 : 


graph twoway mband coefficient yearvbands (10) || scatter coefficient 
year || ,by(region) 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 12.9 所 示 。 


2 


一 -一 Median bands ® coefficient 


Graphs by mgn 


图 12.9 分 析 结 果 图 


从 上 面 的 分 析 结 果 中 可 以 看 出 ， 相 对 于 系统 默认 分 成 的 8 段 ， 散 点 图 得 到 了 更 加 细致 的 
划分 ， 绩 效 考核 系数 走势 也 更 加 清晰 明朗 。 


2. 延伸 2: 设 定 修 匀 的 波段 宽度 
例如 ， 要 设 定 对 每 一 点 进行 修 匀 的 样本 比例 为 0.4， 那 么 操作 命令 就 是 : 
lowess coefficient year if region==1,bwidth(0.4) 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 12.10 所 示 。 


Lowess smoother 
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图 12.10 分 析 结 果 图 


从 上 面 的 分 析 结 果 中 可 以 看 出 ， 数 据 的 波动 性 得 到 了 增强 ， 修 匀 程 度 得 到 了 进一步 的 降低 。 
如 果 设 定 对 每 一 点 进行 修 匀 的 样本 比例 为 0.1， 那 么 操作 命令 就 是 : 
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lowess coefficient year if region==1,bwidth(0.1) 
在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 12.11 所 示 。 


Lowess smoother 


12.11 分 析 结 果 图 


从 上 面 的 分 析 结果 可 以 看 出 ， 数 据 的 波动 性 进一步 得 到 了 增强 ， 修 匀 程 度 得 到 了 进一步 
的 降低 。 系 统 默 认 的 修 匀 样本 比例 是 0.8， 波 段 宽度 也 就 是 修 匀 样本 比例 越 接近 于 1， 数 据 修 
匀 的 程度 就 越 低 。 


12.2 实例 二 一 一 转换 变量 回归 分 析 


12.2.1 转换 变量 回归 分 析 的 功能 与 意义 


转换 变量 回归 分 析 是 解决 变量 间 非 线性 关系 的 重要 方法 之 一 ， 基 本 思想 是 对 一 个 或 者 更 
多 的 变量 进行 恰当 形式 的 非 线性 转换 , 然后 将 转换 好 的 变量 纳入 到 线性 回归 分 析 模 型 中 进行 分 
析 。 由 此 可 以 看 出 转换 变量 回归 分 析 在 本 质 上 仍 属于 线性 回归 分 析 的 范畴 , 但 它 的 确 是 解决 描 
述 变量 间 非 线性 关系 的 较 好 方法 。 


12.2.2 ”相关 数据 来 源 


【 例 12.2】 研究 发 现 ， 锡 克 氏 试验 阴性 率 随 着 儿童 年 龄 的 增长 而 有 所 升 高 。 山 东 省 某 地 
1~7 岁 儿 童 锡 克 氏 试验 阴性 率 的 资料 如 表 12.2 所 示 ， 试 用 转换 变量 回归 分 析 方 法 拟 合 曲线 。 
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表 12.2 儿童 锡 克 氏 试 验 阴 性 率 


年 龄 / 岁 阴性 率 /% 
56.7 
75.9 
90.8 
93.2 
96.6 
95.7 
96.3 


1 
2 
涡 
4 
5 
6 
7 


12.2.3 Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 要 把 数据 录入 到 Stata 中 。 本 例 中 有 两 个 变量 ， 分 别 是 年 龄 和 
阴性 率 。 把 年 龄 变量 设 定 为 ge， 把 阴性 率 变量 设 定 为 ratio， 变 量 类 型 及 长 度 采 取 系 统 默 认 方 
式 , 然后 录入 相关 数据 。 相 关 操 作 在 第 1 章 中 已 有 详细 讲述 。 录 入 完成 后 数据 如 图 12.12 所 示 。 


[站 5 Er (Edit] - 医 例 122.dral heh 


File Edit View Data Tools 
ED EE 
agell] 1 


Eate ~ Voriables 机 
Ee ™ Fiker variables here 


Name Label 
poge 抽 
时 Variables | rapsho 
Properties 了 
日 variables 

Name age 引 
= | liabel 

TD + Type double = 

Vars:2 Order Datase! Obs:7_ Filier: Off Mode:Edit CAP NUM , 


图 12.12 案例 12.2 数据 
先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 骤 如 下 : 


进入 Stata 14.0， 打 开 相 关 数 据 文件 ， 弹 出 主 界面 。 
四 在 主 界面 的 “Command” 文 本 框 中 输入 如 下 操作 命令 ， 并 按键 盘 上 的 回 车 键 进行 确 


认 。 


。 summarize age ratio,detail: 本 命令 的 含义 是 对 年 龄 和 阴性 率 进 行 描述 性 分 析 ， 简 要 探 
索 数 据 特征 ， 从 整体 上 对 数据 有 一 个 清晰 直观 的 把 握 。 

。 twoway line ratio age: 本 命令 旨 在 通过 绘制 年 龄 和 阴性 率 的 线形 图 ， 从 整体 上 对 数据 
有 一 个 清晰 直观 的 把 握 。 

。 graph twoway scatter ratio age || lfit ratio age: 本 命令 间 在 通过 绘制 年 龄 和 阴性 率 的 散 
点 图 ， 从 整体 上 对 数据 有 一 个 清晰 直观 的 把 握 。 

ereg ratio age: 本 命令 间 在 构建 线性 模型 ， 以 阴性 率 为 因 变 量 ， 以 年 龄 为 自 变 量 ， 进 行 
最 小 二 乘 回归 分 析 ， 探 索 变量 间 的 回归 关系 。 

。 ”gen lnage=log(age): 本 命令 旨 在 对 自 变量 年 龄 进行 自然 对 数 变换 ， 为 下 一 步 的 分 析 做 
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的 二 次 方 为 自 变量 ， 进 行 最 小 二 乘 回 归 分 析 ， 探 索 变 量 间 的 回归 关系 。 
。 ”gen age3=age^3: 本 命令 间 在 对 自 变 量 年 龄 进行 三 次 变换 ,为 下 一 步 的 分 析 做 好 准备 。 
。 reg ratio age3 age2 age: 本 命令 旨 在 构建 三 次 模型 ， 以 阴性 率 为 因 变 量 ， 以 年 龄 、 年 
龄 的 二 次 方 以 及 年 龄 的 三 次 方 为 自 变量 ， 进 行 最 小 二 乘 回 归 分 析 ， 探 索 变量 间 的 回归 


12.2.4 结果 分 析 


在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 12.13~ 图 12.22 所 示 的 分 析 结 果 。 


1. 对 数据 进行 描述 性 分 析 的 结果 


图 12.13 是 对 数据 进行 描述 性 分 析 的 结果 。 关于 这 一 分 析 过 程 对 于 回归 分 析 的 重要 意义 已 


在 前 面 章节 中 论述 过 ， 此 处 不 再 重复 讲解 。 


在 图 12.13 所 示 的 分 析 结 果 中 ， 可 以 得 到 很 多 信息 ， 包 括 百 分 位 数 、4 个 最 小 值 、4 个 最 


大 值 、 平 均值 、 标 准 差 、 偏 度 、 峰 度 等 。 
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好 准备 。 
。 reg ratio lnage: 本 命令 旨 在 构建 对 数 模型 ， 以 阴性 率 为 因 变 量 ， 以 年 龄 的 对 数值 为 自 
变量 ， 进 行 最 小 二 来 回归 分 析 ， 探 索 变 量 间 的 回归 关系 。 
。 gen age2=age^2: 本 命令 旨 在 对 自 变量 年 龄 进行 二 次 变换 ， 为 下 一 步 的 分 析 做 好 准备 。 
。 reg ratio age2 age: 本 命令 旨 在 构建 二 次 模型 ， 以 阴性 率 为 因 变 量 ， 


age 
P iles Smallest 
1 1 1 
Se 1 2 
10% 1 3 obs 7 
ss 入 4 Sum of Wgt. 7 
so 4 Nean 4 
Largesc Std. Dev. 2.160247 
ss 6 
so 7 5 Varian 4.666667 
9ss 7 6 Skewne o 
ES 7 7 Kurtosis 1.75 
rati 
Percent iles Smallest 
位 56.7 56.7 
Ss 56.7 75.9 
10% 56.7 90.8 obs 7 
ss 75.9 93.2 Sum of Wgt. 汪 
sos 93.2 Wean 86.45714 
Largest Std. Dev. 14.9803 
ss 96.3 93.2 
os 96.6 95.7 Variance 224.4095 
ss 96.6 96.3 Skewness 1.304 
Es 96.6 96.6 Kurtosis 3.190059 


12.13 ”对 数据 进行 描述 性 分 析 
(1) 百 分 位 数 (Percentiles ) 


可 以 看 出 变量 age 的 第 1 个 四 分 位 数 (25%) 是 2， 第 2 个 四 分 位 数 (50%) 是 4， 第 3 
个 四 分 位 数 (75%) 是 6; 变量 ratio 的 第 1 个 四 分 位 数 (25%) 是 75.9, 第 2 个 四 分 位 数 (50% ) 
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\\\\\\\\\\\\\\\\\\ 


是 93.2， 第 3 个 四 分 位 数 〈75%) 是 96.3。 


(2) 4 个 最 小 值 (Smallest) 
变量 age 最 小 的 4 个 数据 值 分 别 是 1、2、3、4。 
变量 ratio 最 小 的 4 个 数据 值 分 别 是 56.7、75.9、90.8、93.2。 


(3) 4 个 最 大 值 (Largest) 
变量 age 最 大 的 4 个 数据 值 分 别 是 4、5、6、7。 
变量 ratio 最 大 的 4 个 数据 值 分 别 是 93.2、95.7、96.3、96.6。 


(4) 平均 值 (Mean ) 和 标准 差 (Std. Dev) 
变量 age 的 平均 值 为 4， 标 准 差 是 2.160247。 
变量 ratio 的 平均 值 为 86.45714， 标 准 差 是 14.9803。 


(5) 偏 度 ( Skewness ) 和 峰 度 (Kurtosis ) 
变量 age 的 偏 度 为 0， 为 零 偏 度 。 
变量 ratio 的 偏 度 为 -1.304， 为 负 偏 度 但 不 大 。 
变量 age 的 峰 度 为 1.75， 有 一 个 比 正 态 分 布 略 短 的 尾巴 。 
变量 ratio 的 峰 度 为 3.190059， 有 一 个 比 正 态 分 布 略 长 的 尾巴 。 


综 上 所 述 ， 数 据 的 总 体质 量 还 是 可 以 的 ， 没 有 极端 异常 值 ， 变 量 间 的 量 纲 差距 、 变 量 的 
偏 度 、 峰 度 也 是 可 以 接受 的 ， 可 以 进行 下 一 步 的 分 析 。 
2. 年 龄 和 阴性 率 的 线形 图 
图 12.14 是 年 龄 和 阴性 率 的 线形 图 。 
8 


鲁 


0 4 6 8 
age 


12.14 年 龄 和 阴性 率 的 线形 图 
从 图 12.14 可 以 看 出 阴性 率 随 着 年 龄 的 上 升 而 上 升 ， 但 是 上 升 的 速度 越 来 越 慢 。 


3. 年 龄 和 阴性 率 的 散 点 图 
图 12.15 是 年 龄 和 阴性 率 的 散 点 图 。 
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图 12.15 年龄 和 阴性 率 的 散 点 图 


从 图 12.15 同样 可 以 看 出 ， 阴 性 率 随 着 年 龄 的 上 升 而 上 升 , 但 是 上 升 的 速度 越 来 越 慢 ， 因 
此 初步 构想 的 模型 包括 线性 、 对 数 、 二 次 、 三 次 等 。 


4. 对 数据 进行 线性 回归 分 析 的 结果 
图 12.16 是 对 数据 进行 线性 回归 分 析 的 结果 。 


962.915714 962.915714 
383.541429 76.7082857 


1346.45714 224.409524 


coef. std. Err. 


5.864286 1.655168 3.54 0. 1.609541 10.11903 
63 7.402137 8.51 0. 43.9722 -82.0278 


12.16 ”对 数据 进行 线性 回归 分 析 


从 上 述 分 析 结 果 可 以 看 出 共有 7 个 样本 参与 了 分 析 , 模型 的 F 值 (1, 5)= 12.55, P 值 (Prob 
> F) = 0.0165， 说 明 模型 整体 上 是 非常 显著 的 。 模 型 的 可 决 系数 (R-squared) = 0.7151， 模 
型 修正 的 可 决 系数 (Adj R-squared) = 0.6582， 说 明 模 型 的 解释 能 力 还 是 差强人意 的 。 

变量 age 的 系数 标准 误 是 1.655168，t 值 为 3.54，P 值 为 0.017， 系 数 是 非常 显著 的 ，95% 
的 置信 区 间 为 [1.609541, 10.11903]。 常 数 项 的 系数 标准 误 是 7.402137,t 值 为 8.51,P 值 为 0.000， 
系数 也 是 非常 显著 的 ，95% 的 置信 区 间 为 [43.9722，82.0278]。 

模型 的 回归 方程 是 : 


ratio = 5.864286* age + 63 


从 上 面 的 分 析 可 以 看 出 线性 模型 的 整体 显著 性 和 系数 显著 性 尚 可 ,但 模型 的 整体 解释 能 
力 有 较 大 提升 空间 。 
5. 对 数据 进行 对 数 变 换 线性 回归 分 析 的 结果 


选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 12.17 所 示 的 Inage 数据 。 
图 12.18 是 对 数据 进行 对 数 变 换 线性 回归 分 析 的 结果 。 
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.reg ratio lnmage 


source ss a 加 
aaael | 1230.38048 。 1 1230.38048 
Residual | 116.07666 。 5 23.215332 
Toral | 1346.45714 6 224.409524 
1 : 
观光 ratio Coef. Std. Err. t P>ltl [95s# Conf. Interval] 
? ) 20.4 
4 : 有 inaae | 20.91074 2.872349 7.28 0.001 。 13.52713 。 28.29435 
s 5 36.6 60.99036 。 3.94382 15,46 0.000 50,95245 -71,12929 
‘ s 35.7 
7 7 sc.3 
图 12.17 数据 查看 界面 图 12.18 ”对 数据 进行 对 数 变换 线性 回归 分 析 


从 上 述 分 析 结果 中 可 以 看 出 模型 的 F 值 (1, 5) 升 为 53, P 值 (Prob > F) 升 为 0.0008， 说 
明 模 型 整体 显著 程度 继续 上 升 。 模 型 的 可 决 系数 (R-squared) = 0.9138， 模 型 修正 的 可 决 系数 
(Adj R-squared) = 0.8965， 说 明 模 型 的 解释 能 力 大 幅度 提升 。 

变量 Inage 的 系数 标准 误 是 2.872349, t 值 为 7.28, P 值 为 0.001, 系数 是 非常 显著 的 ，95% 
的 置信 区 间 为 [13.52713, 28.29435]。 常 数 项 的 系数 标准 误 是 3.94382,t 值 为 15.46,P 值 为 0.000， 
系数 也 是 非常 显著 的 ，95% 的 置信 区 间 为 [50.85245，71.12828]。 

模型 的 回归 方程 是 : 

ratio = 20.91074* lnage + 60.99036 

从 上 面 的 分 析 可 以 看 出 对 数 模型 的 整体 显著 性 和 系数 显著 性 较 线性 模型 虽 略 有 升 高 ， 但 
对 模型 的 整体 解释 能 力 却 有 了 较 大 提升 。 

6. 对 数据 进行 二 次 变换 线性 回归 分 析 的 结果 

选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 


到 如 图 12.19 所 示 的 age2 数据 。 
图 12.20 是 对 数据 进行 二 次 变换 线性 回归 分 析 的 结果 。 


reg ratio age2 age 


Source ss Nunber of obs = 7 
Fl 2, | 66.19 
Nodel 1306.96333 2 653.481667 Prob > 了 = 0.0009 
Residual 39.4938095 4 9.87345238 R-squared = 0.9707 
aaj R-squared = 0.9560 
-= pr 一 Total | 1346.45714 = 6 224.409524 Root MSE = 3.1422 
1 2 Ca i 
2 2 75.9 a ratio Coef. Std, Err. t [95% Conf. Interval] 
3 3 90.8 3 
4 4 93.2 16 age2 | -2.02381 .3428427 -2.975693 。 -1.071926 
ee 证 age | 22.05476 2.806288 7.86 14.26326 。 29.84627 
“ cons 38.71429 4.896773 25.11866 52.30991 
6 € 95.7 36 二 
7 7 96.3 49 
图 12.19 数据 查看 界面 图 12.20 对 数据 进行 二 次 变换 线性 回归 分 析 


从 上 述 分 析 结 果 中 可 以 看 出 模型 的 F 值 (2,4) 上 升 为 66.19, P 值 (Prob > F) 为 0.0009, 说 
明 模 型 整体 显著 程度 依旧 非常 好 。 模 型 的 可 决 系数 (R-squared) = 0.9707， 模 型 修正 的 可 决 系 
数 (Adj R-squared) = 0.9560， 说 明 模 型 的 解释 能 力 又 有 小 幅度 提升 。 

变量 age2 的 系数 标准 误 是 0.3428427, t 值 为 -5.90, P 值 为 0.004, 系数 是 非常 显著 的 , 95% 
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的 置信 区 间 为 [-2.975693, -1.071926]。 变 量 age 的 系数 标准 误 是 2.806288，t 值 为 7.86, P 值 为 
0.001， 系 数 是 非常 显著 的 ，95% 的 置信 区 间 为 [14.26326，29.84627]。 常 数 项 的 系数 标准 误 是 
4.896773，t 值 为 7.91，P 值 为 0.001， 系 数 也 是 非常 显著 的 ，95% 的 置信 区 间 为 [25.11866， 
52.30991]。 

模型 的 回归 方程 是 : 

ratio= -2.02381* age2+ 22.05476* age+38.71429 


从 上 面 的 分 析 可 以 看 出 二 次 模型 在 保持 整体 显著 性 和 系数 显著 性 的 同时 ， 实 现 了 模型 整 
体 解释 能 力 的 小 幅度 提升 。 

7. 对 数据 进行 三 次 变换 线性 回归 分 析 的 结果 

选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 


到 如 图 12.21 所 示 的 age3 数据 。 
图 12.22 是 对 数据 进行 三 次 变换 线性 回归 分 析 的 结果 。 


.reg ratie age3 age2 age 
soures ss a 四 number of cps = 7 
了 ( 3v 3) = 196.22 
Hodel 1339.63 3 446.543333 prob SF = 0.0006 
Residual | 6.82714286 3 2.27571429 R-aquared = 0.99d9 
Adj R-sauared = 0.9899 
pe A Tocal | 1346.45714 6 224.409524 Rooc HSE = 1.5085 
: 4 CE :il 
2 2 73.9 二 [ ratio Cocf. gtd, Ecc. t P>1z1 [ss5s Conf, Interval] 
: 3 30. 27 
1 1 3 i 而 oae3 | 3800009 1026436 3.79 0.039 .0622311 。 .7155467 
. | aaez | -6.690476 1.242672 。 -5.38 0.013 。 -10.64521 -2.735738 
站 3 六 i aae | 37.99921 4.418788 8.60 0.003 23.93665 52.06176 
cons | 24.71429 4.379614 。 564 oo 10.7764 38.65217 
7 7 36.3 册 3 = 
图 击 和 
12.21 数据 查看 界面 图 12.22 对 数据 进行 三 次 变换 线性 回归 分 析 


从 上 述 分 析 结 果 中 可 以 看 出 模型 的 F 值 (3,3) 上 升 为 196.22,P 值 (Prob > F) 为 0.0006， 
说 明 模型 整体 显著 程度 继续 上 升 。 模 型 的 可 决 系数 (R-squared) = 0.9949， 模 型 修正 的 可 决 系 
数 (Adj R-squared) = 0.9899， 说 明 模 型 的 解释 能 力 又 有 小 幅度 提升 ， 接 近 完 美 。 

变量 age3 的 系数 标准 误 是 0.1026436, t 值 为 3.79, P 值 为 0.032, 系数 是 非常 显著 的 , 95% 
的 置信 区 间 为 [0.0622311, 0.7155467]。 变 量 age2 的 系数 标准 误 是 1.242672，t 值 为 -3.38，P 值 
为 0.013， 系 数 是 非常 显著 的 ，95% 的 置信 区 间 为 [-10.64521, -2.735738]。 变 量 age 的 系数 标准 
误 是 4.418788，t 值 为 8.60，P 值 为 0.003， 系 数 是 非常 显著 的 ，95% 的 置信 区 间 为 [23.93665， 
52.06176]。 常数 项 的 系数 标准 误 是 4.379614, t 值 为 5.64, P 值 为 0.011, 系数 也 是 非常 显著 的 ， 
95% 的 置信 区 间 为 [10.7764,38.65217]。 

模型 的 回归 方程 是 : 


ratio =0.3888889* age3 -6.690476* age2+ 37.99921* age+24.71429 


从 上 面 的 分 析 可 以 看 出 三 次 模型 在 保持 整体 显著 性 和 系数 显著 性 的 同时 ， 又 实现 了 模型 
整体 解释 能 力 的 小 幅度 提升 ， 使 模型 接近 完美 。 
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12.2.5 ”案例 延伸 


上 述 的 Stata 命令 比较 简洁 ， 分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 

下 面 采用 前 面 介绍 过 的 sw regress 命令 选择 回归 模型 自 变量 。 

可 以 定义 年 龄 age、 年 龄 的 二 次 方 age2、 年 龄 的 三 次 方 age3、 年 龄 的 四 次 方 age4、 年 龄 
的 五 次 方 age5 自 变 量 ， 并 设 定 显著 性 水 平 为 0.05， 操 作 命令 如 下 : 


SW regress ratio age age2 age3 age4 age5,pr(0.05) 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 12.23 所 示 。 


55 ratlo age age? age3 age4 ageIvprf0.03) 
begin wirh full model 
>= 0.0500 renoving age 
y= 0.0500 renovin 9 ages 


ss £3 ms 
3) = 59.99 
1324.38121 3 441.460403 prob > -= 0.0035 
22.0759343 3 7.35064476 -quare: ~- 0.9026 
ea = 0.9672 


1346.45714 = 6 224.409524 


Coef, Std, Ecr, 上 Interval] 


1907789 。 0418335 -0576461 .3939117 
10.84041 1. a 5.774258 = 15.90656 
-2.746933 -5. -4.350572 -1.135294 
49.866913 。 3.332113 39.26086 。 60,46941 


图 12.23 分 析 结 果 图 
至 于 本 结果 的 详细 解读 与 前 面 重复 ， 限 于 篇 幅 ， 这 里 不 再 奖 述 。 


12.3 ”实例 三 一 一 非 线 性 回归 分 析 


12.3.1 非 线性 回归 分 析 的 功能 与 意义 


上 节 讲 述 的 转换 变量 回归 分 析 从 本 质 上 讲 仍 属于 一 种 线性 回归 分 析 方法 ， 而 实际 问题 往 
往 会 更 复杂 ， 使 用 转换 变量 回归 分 析 方法 便 无 法 做 出 准确 的 分 析 ， 这 时 候 就 需要 用 到 Stata 的 
非 线性 回归 分 析 。 非 线性 回归 分 析 是 一 种 功能 更 强大 的 处 理 非 线性 问题 的 方法 , 可 以 使 用 户 自 
定义 任意 形式 的 函数 ， 从 而 更 加 准确 地 描述 变量 之 间 的 关系 。 


12.3.2 ”相关 数据 来 源 


| vitocmppv- 


天 | 下 载 资源 :samplechap12\ 案 例 12.3 .dta 
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【 例 12.3】 某 著名 总 裁 培训 班 的 讲师 想 要 建立 一 个 回归 模型 ， 对 参与 培训 的 企业 高 管 毕 
业 后 的 长 期 表现 情况 进行 预测 。 自 变量 是 高 管 的 培训 天 数 , 因 变量 是 高 管 毕业 后 的 长 期 表现 指 
数 ， 指 数 越 大 ， 表 现 越 好 。 表 12.3 给 出 了 相关 数据 ， 试 用 非 线性 回归 方法 拟 合 模型 。 
表 12.3 15 名 高 管 的 培训 天 数 (x) 与 长 期 表现 指数 〔y) 
号 培训 天 数 长 期 表现 指数 
53 


Ba aad bd bead bad od boa Dad 


12.3.3 ”Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 要 把 数据 录入 到 Stata 中 。 本 例 中 有 两 个 变量 ， 分 别 是 培训 天 
数 和 长 期 表现 指数 。 把 培训 天 数 变量 设 定 为 x， 把 长 期 表现 指数 变量 设 定 为 y， 变 量 类 型 及 长 
度 采 取 系统 默认 方式 ， 然 后 录入 相关 数据 。 相 关 操作 已 在 第 1 章 中 有 过 详细 讲述 。 录 入 完成 后 
数据 如 图 12.24 所 示 。 


[ 口 buo tauorttdn - 医 9023dol > yx) 


Variables | Snapshors 
pr 5 


Ready Vars:2 Order Dataset Obs:15 Filter Off Mode:Edit NUM < 


图 12.24 案例 12.3 数据 
先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 骤 如 下 : 
进入 Stata 14.0， 打 开 相 关 数 据 文件 ， 弹 出 主 界面 。 
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。 ”summarize y x,detail: 本 命令 的 含义 是 对 长 期 表现 指数 和 培训 天 数 进行 描述 性 分 析 ， 
简要 探索 数据 特征 ， 从 整体 上 对 数据 有 一 个 清晰 直观 的 把 握 。 

。 twoway line y x: 本 命令 间 在 通过 绘制 长 期 表现 指数 和 培训 天 数 的 线形 图 ， 从 整体 上 
对 数据 有 一 个 清晰 直观 的 把 握 。 

。 graph twoway scatter y x || lfit yx: 本 命令 旨 在 通过 绘制 长 期 表现 指数 和 培训 天 数 的 
散 点 图 ， 从 整体 上 对 数据 有 一 个 清晰 直观 的 把 握 。 

。 reg yx: 本 命令 旨 在 构建 线性 模型 ， 以 长 期 表现 指数 为 因 变量 ， 以 培训 天 数 为 自 变 量 ， 
进行 最 小 二 乘 回归 分 析 ， 探 索 变 量 间 的 回归 关系 。 

。 nl(y=exp({a}+{b}*x)): 本 命令 旨 在 以 长 期 表现 指数 为 因 变 量 ,以 培训 天 数 为 自 变量 ， 
构建 非 线性 模型 y =exp({a}+{b}*x)， 进 行 非 线 性 回归 分 析 。 

日 “vce: 本 命令 旨 在 估计 系数 a 和 bb 的 方差 - 协 方差 矩阵 。 

。 ”predict yhat: 本 命令 旨 在 获得 因 变 量 的 拟 合 值 。 

。 predict exresid: 本 命令 旨 在 获得 回归 模型 的 估计 残 差 。 


辆 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


12.3.4 结果 分 析 


在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 12.25~ 图 12.32 所 示 的 分 析 结 果 。 

1. 对 数据 进行 描述 性 分 析 的 结果 

图 12.25 是 对 数据 进行 描述 性 分 析 的 结果 。 关 于 这 一 分 析 过 程 对 于 回归 分 析 的 重要 意义 在 
前 面 章 节 中 已 经 论述 过 ， 此 处 不 再 重复 讲解 。 


了 
Percentiles Smallest 
入 4 4 
Ss 站 s 
jos 6 o Ee 15 
ss a a Su of wor 15 
os 19 Hean 23.26667 
Largest Std. Dev. 16.67105 
ss 36 36 
os 51 5 Variance 277.9238 
5 53 51 Skevness -611507 
ss 53 53 Kurtosis 1.909912 
Percent iles Smallesl 
了 到 2 
Ss 2 5 
os 5 了 15 
5 an 
os 31 30.73333 
Largest 20.98798 
ss 52 52 
os 60 53 440.4952 
5 65 60 .1586165 
9s 65 65 1.706699 


12.25 分析 结果 图 
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最 大 值 、 平 均值 、 标 准 值 、 偏 度 、 峰 度 等 。 


(1) 百 分 位 数 (Percentiles ) 

可 以 看 出 变量 y 的 第 1 个 四 分 位 数 (25%) 是 8， 第 2 个 四 分 位 数 (50%) 是 19, 第 3 个 
四 分 位 数 (75%) 是 36; 变量 x 的 第 1 个 四 分 位 数 (25%) 是 10， 第 2 个 四 分 位 数 (50%) 是 
31， 第 3 个 四 分 位 数 (75%) 是 52。 


(2) 4 个 最 小 值 (Smallest) 
变量 y 最 小 的 4 个 数据 值 分 别 是 4、6、8、8。 
变量 x 最 小 的 4 个 数据 值 分 别 是 2、5、7、10。 


(3) 4 个 最 大 值 (Largest) 
变量 y 最 大 的 4 个 数据 值 分 别 是 36、45、51、53。 
变量 x 最 大 的 4 个 数据 值 分 别 是 52、53、60、65。 


(4) 平均 值 (Mean ) 和 标准 差 (Std. Dev) 
变量 y 的 平均 值 为 23.26667， 标 准 差 是 16.67105。 
变量 x 的 平均 值 为 30.73333， 标 准 差 是 20.98798。 


(5) 偏 度 (Skewness) 和 峰 度 (Kurtosis ) 

变量 y 的 偏 度 为 0.611507， 为 正 偏 度 但 不 大 。 

变量 x 的 偏 度 为 0.1586165， 为 正 偏 度 但 不 大 。 

变量 y 的 峰 度 为 1.989912， 有 一 个 比 正 态 分布 略 短 的 尾巴 。 
变量 x 的 峰 度 为 1.706699， 有 一 个 比 正 态 分 布 略 短 的 尾巴 。 


综 上 所 述 ， 数 据 的 总 体质 量 还 是 可 以 的 ， 没 有 极端 异常 值 ， 变 量 间 的 量 纲 差距 、 变 量 的 
偏 度 、 峰 度 也 是 可 以 接受 的 ， 可 以 进入 下 一 步 的 分 析 。 
图 12.26 是 长 期 表现 指数 和 培训 天 数 的 线形 图 。 
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12.26 ”长 期 表现 指数 和 培训 天 数 的 线形 图 


从 图 12.26 可 以 看 出 长 期 表现 指数 随 着 培训 天 数 的 上 升 而 上 升 , 但 是 上 升 的 逐渐 程度 不 明 
朗 。 
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图 12.27 是 长 期 表现 指数 和 培训 天 数 的 散 点 图 。 


图 12.27 长 期 表现 指数 和 培训 天 数 的 散 点 图 
从 图 12.27 同样 可 以 看 出 长 期 表现 指数 随 着 培训 天 数 的 上 升 而 上 升 , 但 是 上 升 的 逐渐 程度 
不 明朗 。 
图 12.28 是 对 数据 进行 线性 回归 分 析 的 结果 。、 


regress 了 x 


Source ns Number of obs = 15 
Fl 1， 13) = 98.45 

Nodel | 3437.07334 3437.07334 Prob > 了 ~ 0.0000 
Residual | 453.859995 34.9123073 R-squared = 0.8834 


Adj R-squared = 0.8744 


Toral | 3890.93333 277.92381 Root HSE = 5.9087 


Coef. Std. Err. 上 Pp>ltl [95s* Conf, Interval] 


-.7465515 .075241 -9.92 0.000  -.9090998 。 -.5840032 
46.21068 2.770327 16.68 0.000 40.22575 52.19561 


12.28 ”对 数据 进行 线性 回归 分 析 


从 上 述 分 析 结 果 中 可 以 得 到 很 多 信息 。 可 以 看 出 共有 15 个 样本 参与 了 分 析 ， 模 型 的 F 值 

(1, 13) = 98.45, P 值 (Prob > F) = 0.0000， 说 明 模型 整体 上 是 非常 显著 的 。 模 型 的 可 决 系数 
(R-squared) 为 0.8834， 模 型 修正 的 可 决 系数 (Adj R-squared) 为 0.8744， 说 明 模型 的 解释 能 

力 还 是 差强人意 的 。 

变量 x 的 系数 标准 误 是 0.075241，t 值 为 -9.92, P 值 为 0.000， 系 数 是 非常 显著 的 ，95% 的 
置信 区 间 为 [-0.9090998，-0.5840032]。 常 数 项 的 系数 标准 误 是 2.770327，t 值 为 16.68，P 值 为 
0.000， 系 数 也 是 非常 显著 的 ，95% 的 置信 区 间 为 [40.22575,52.19561]。 

模型 的 回归 方程 是 : 


y= -0.7465515 *x + 46.21068 


从 上 面 的 分 析 可 以 看 出 线性 模型 的 整体 显著 性 和 系数 显著 性 尚 可 ,但 模型 的 整体 解释 能 
力 有 较 大 提升 空间 。 
图 12.29 是 对 数据 进行 非 线 性 回归 分 析 的 结果 。 
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my = erpt faytth}ee)) 
lobs = 15) 


= 6452.563 

= 181.1452 

= 66.15499 

= 64.57034 

= 64.56715 

= 64.56715 

= 64.56715 

Source 55 ar 2 

Number of obs = 15 
Nodel | 11946.4329 2 5973.21643 R-squared = 0.9946 
hesidual 64.567146 = 13 4.96670354 Bq] R-squared = 0.9938 
Root NSE = 2.22861 
Total 12011 。 15 800.733333 Res. dev. = 64.46299 
了 Coef. Std. Err. t Ppltl [95% Conf. Interval] 
/a 4.063108 。 .0288334 140.92 0.000 4.000817 。 4.125399 
/bp | -.0392997 .0019524 -20.13 0.000 。 -.0435175  -.0350819 


12.29 ”对 数据 进行 非 线性 回归 分 析 


从 上 述 分 析 结果 中 可 以 得 到 很 多 信息 。 可 以 看 出 模型 的 可 决 系数 (R-squared) 大 幅 上 升 
为 0.9946， 模 型 修正 的 可 决 系数 (Adj R-squared) 为 0.9938， 模 型 的 解释 能 力 几 乎 达到 完美 状态 。 
系数 a 的 系数 标准 误 是 0.0288334, t 值 为 140.92, P 值 为 0.000, 系数 是 非常 显著 的 ，95% 
的 置信 区 间 为 [4.000817, 4.125399]。 系 数 b 的 系数 标准 误 是 0.0019524，t 值 为 -20.13，P 值 为 
0.000， 系 数 也 是 非常 显著 的 ，95% 的 置信 区 间 为 [-0.0435175,-0.0350819]。 
模型 的 回归 方程 是 : 


y=EXP(4.063108 -0.0392997*x) 


从 上 面 的 分 析 可 以 看 出 非 线 性 回归 模型 在 保持 整体 显著 性 和 系数 显著 性 较 线性 模型 很 高 
的 基础 上 ， 实 现 了 模型 的 整体 解释 能 力 的 较 大 提升 。 
图 12.30 是 系数 的 方差 - 协 方差 矩阵 。 


.00083137 


-.0000398 | 3.812e-06 


图 12.30 ”系统 的 方差 一 协 方差 矩阵 
从 图 12.30 中 可 以 看 出 ， 系 数 间 的 方差 与 协 方差 都 不 是 很 大 ， 有 些 甚 至 微不足道 。 
图 12.31 是 对 因 变 量 的 拟 合 值 的 预测 。 
关于 因 变 量 预 测 拟 合 值 的 意义 我 们 在 前 面 章节 中 已 经 论述 了 ， 此 处 不 再 重复 讲解 。 
图 12.32 是 回归 分 析 得 到 的 残 差 序 列 。 
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12 章 ”Stata 非 线性 回归 分 析 
WA 
人: 0 
图 12.31 因 变 量 的 拟 合 值 预测 图 12.32 ” 残 差 序列 


关于 残 差 序 列 的 意义 我 们 在 前 面 章 节 中 已 经 论述 了 ， 此 处 不 再 重复 讲解 。 
12.3.5 ”案例 延伸 


上 述 的 Stata 命令 比较 简洁 ， 分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 

1. 延伸 1: 设 定 非 线 性 回归 模型 中 被 估计 参数 的 初始 值 

例如 ， 本 例 中 我 们 把 系数 a 的 起 始 值 设 定 为 4， 把 系数 b 的 初始 值 设 定 为 -0.04， 那 么 操作 
命令 可 以 相应 地 修改 为 : 


nl (y = exp({a}+{b}*x)), initial(la 4 b -0.04) 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 12.33 所 示 。 


nl ty = exp({a)tth}*x)), initial(a 4 b -0.04) 
(obs = 15) 


Iteration 0: residual 53 = 64.64718 
[Iteration 1: residual 33 = 64.56715 
Iteration 2: residual S3 = 64.56715 
Iteration 3: residual SS = 64.56715 


Source SS dr LS 
Number of obs = 15 
Model 11946.4329 2 5973.21643 R-squared 昌 0.9946 
Residual 64.567146 13 4.96670354 adj R-squared = 0.9938 
Root HSE = 2.22861 
Tocal 12011 。 15 800.733333 Res. dev. = 64.46299 
了 Coef. std. Err. 5 Pltl [95% Conf. Interval] 
/a 4.063108 :0288334 140.92 0.000 4.000817 4.125399 
/bp 一 .0392997 .0019524 -20.13 0.000 一 .0435175 -.0350819 


12.33” 设 定 非 线性 回归 模型 中 被 估计 参数 的 初始 值 


从 上 面 的 分 析 结 果 中 可 以 看 出 由 于 初始 参数 值 的 设 定 减少 了 迭代 次 数 ， 提 高 了 系统 运行 
效率 ， 但 结果 与 前 面 是 一 致 的 ， 对 本 结果 的 详细 解读 限于 篇 幅 不 再 次 述 。 


2. 延伸 2: 采用 稳健 的 标准 差 进行 非 线性 回归 估计 
与 线性 回归 类 似 ， 非 线性 回归 也 可 以 允许 稳健 标准 差 选择 项 的 存在 ， 例 如 本 例如 果 使 用 
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稳健 的 标准 差 ， 那 么 操作 命令 就 是 : 

nl (y = exp({a}+{b}*x)),robust 

在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 12.34 所 示 。 

上 面 的 分 析 结 果 与 没有 使 用 稳健 标准 差 进行 回归 时 大 同 小 异 ， 对 本 结果 的 详细 解读 限于 
篇 幅 不 再 歼 述 。 


™ 
+ ml (7 = exp({a)+{h}*x)) ,robust 
{obs = 15) 
Iteration 0: residual SS = 6452.563 
Iteration 1: residual SS = 181.1452 
Iteration 2: residual SS = 66.15499 
Iteration 3: residual SS = 64.57034 
Iteration 4: residual SS = 64.56715 
Iteration 5: residual SS = 64.56715 
Iteration 6: residual SS = 64.56715 
Nonlinear regression Number of obs = 15 
R-squared = 0.9946 
Adj R-squared = 0.9938 
Root NSE = 2.22861 
Res. dev. = 64.46299 
Robust 
y Coef. Std,. Err. 上 Pp>ltl [95% Conf. Interval] 
/a 4.063108 .0279161 145.55 0.000 4.002799 。 4.123417 
/b | -.0392997 .0018994 -20.69 0.000 。” -.0434031  -.0351962 


12.34 ”采用 稳健 的 标准 差 进 行 非 线性 回归 估计 
3. 延伸 3: 采用 系统 默认 快捷 函数 进行 非 线 性 回归 
由 于 很 多 非 线性 函数 常常 被 用 到 ， 因 此 Stata 将 这 些 函 数 进行 了 内 置 ， 用 户 在 使 用 时 可 以 
轻松 地 使 用 简易 命令 调 出 ， 而 不 必 输 入 复杂 的 模型 方程 形式 。Stata 内 置 非 线性 函数 命令 缩写 
与 函数 形式 如 表 12.4 所 示 。 


表 12.4 Stata 内 置 非 线 性 函数 命令 缩写 与 函数 形式 


=b0+bl*b2^x 
y=bl*(1-b2^x) 
y=bl/(1 +exp(-b2*(x-b3))) 
=b0+bl/(] + exp(-b2*(x-b3 
y =bl*exp(-exp(-b2*(x-b3))) 
y=b0+bl*exp(-exp(-b2*(x-b3))) 


例如 ， 在 本 例 中 如 果 我 们 设 定 非 线 性 模型 回归 形式 为 : y=b1*b2^x， 那 么 操作 命令 就 是 : 
nl exp2 yx 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 12.35 所 示 。 
对 该 模型 结果 的 详细 解读 限于 篇 幅 不 再 更 述 。 我 们 得 到 的 非 线性 回归 方程 是 : 


y=58.15477 *0.9614625 ^x 
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\ 
\N 


\\ 


模型 的 解释 能 力 和 显著 性 都 非常 好 。 


"mn exp2 了 xx 
(obs = 15) 


Iteration 0: residual ss = 70.499 
Iteration 1: residual SS = 64.57089 
Iteration 2: residual SS = 64.56715 
Iteration 3: residual SS = 64.56715 

Source ss E33 EL Number of obs = 15 

Ft 2, 13) = 1202.65 

Hodel | 11946.4329 2 5973.21643 Prob > 了 = 0.0000 

Residual 64.567146 = 13 4.96670354 R-squared = 0.9946 

Adj R-squared = 0.9938 

Tocal 12011 = 15 800.733333 Root NSE = 2.22861 

Res. dev. = 64.46299 
2-param. exp. growch curve, y=bl*b2*x 

了 Coef. Std. Err. 上 [95% conf，Incerval] 

bl 58.15477 1.676798 34.68 0.000 54.53227 。 61.77727 

bz .9614625 .0018771 512.20 0.000 .9574073 .9655178 


(SEs, P values, CIs, and correlations are asymptotic approximacions) 


12.35 采用 系统 默认 快捷 函数 进行 非 线 性 回归 


12.4 ”本 章 习 题 


(1) 某 两 家 足球 俱乐部 的 部 分 球员 历年 进 球 数 如 表 12.5 所 示 , 请 用 非 参 数 回归 方法 研究 
年 份 和 绩效 考核 系数 两 个 变量 之 间 的 关系 。 


表 12.5 某 两 家 足球 俱乐部 的 部 分 球员 历年 进 球 数 


所 属 俱乐部 
A 俱乐部 
A 俱乐部 
A 俱乐部 
A 俱乐部 
A 俱乐部 


B 俱 乐 部 
B 俱 乐 部 
B 俱 乐 部 

(2) 某 闭 名 总 裁 培训 班 的 讲师 想 建立 一 个 回归 模型 ， 对 参与 培训 的 企业 高 管 毕业 后 的 长 
期 表现 情况 进行 预测 。 自 变量 是 高 管 的 培训 天 数 ， 因 变量 是 高 管 毕业 后 的 长 期 表现 指数 ,指数 
越 大 ， 表 现 越 好 。 表 12.6 给 出 了 相关 数据 ， 试 用 转换 变量 回归 分 析 方 法 拟 合 曲 线 。 

表 12.6 15 名 高 管 的 培训 天 数 (x) 与 长 期 表现 指数 〈y) 

号 培训 天 数 


al a bd a 
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( 续 表 ) 


长 期 表现 指数 


(3) 研究 发 现 ， 锡 克 氏 试验 阴性 率 随 着 儿童 年 龄 的 增长 而 升 高 。 查 得 山东 省 某 地 1~7 岁 
儿童 的 资料 如 表 12.7 所 示 ， 试 用 非 线 性 回归 方法 拟 合 模型 。 


表 12.7 儿童 锡 克 氏 试 验 阴性 率 


年 龄 / 岁 阴性 率 /% 
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第 13 章 Stata Logistic 回归 分 析 


前 面 我 们 讲述 的 回归 分 析 方 法 都 要 求 因 变量 是 连续 变量 ， 但 很 多 情况 下 因 变 量 是 离散 的 ， 
而 非 连续 的 。 例 如 ， 公 司 招聘 人 才 时 根据 对 应 聘 人 员 的 特征 做 出 录用 或 者 不 录用 的 评价 、 毕 业 
学 生 对 职业 的 选择 等 。 这 时 就 需要 用 到 我 们 本 章 介 绍 的 Logistic 回归 分 析 。 根据 因 变量 的 离散 
特征 ， 常 用 的 Logistic 回归 分 析 方 法 有 3 种 ， 包 括 二 元 Logistic 回归 分 析 、 多 元 Logistic 回归 
分 析 以 及 有 序 Logistic 回归 分 析 等 。 下 面 我 们 就 以 实例 的 方式 一 一 介绍 这 几 种 方法 在 Stata 中 
的 应 用 。 


13.1 ”实例 一 一 一 二 元 Logistic 回 归 分 析 


13.1.1 二 元 logistic 回归 分 析 的 功能 与 意义 


我 们 经 常会 遇 到 因 变 量 只 有 两 种 取 值 的 情况 ， 例 如 是 否 患 病 、 是 否 下 雨 等 ， 这 时 一 般 的 
线性 回归 分 析 将 无 法 准确 刻画 变量 之 间 的 因果 关系 ,需要 用 其 他 的 回归 分 析 方 法 来 进行 拟 合 模 
型 。Stata 的 二 项 分 类 Logistic 回归 便 是 一 种 简便 的 处 理 二 分 类 因 变 量 问 题 的 分 析 方 法 。 


13.1.2 ”相关 数据 来 源 


B= 下 载 资源 :\ideo\chap13\… 


一 下 载 资源 :\sample\chap13\ 案 例 13.1.dta 


【 例 13.1】 表 13.1 给 出 了 20 名 肾 癌 患者 的 相关 数据 。 试 用 二 项 分 类 Logistic 回归 方法 分 
析 患 者 肾 细胞 癌 转 移 情况 (有 转移 y=1、 无 转移 y=0) 与 患者 年 龄 、 肾 细胞 癌 血 管内 皮 生 长 因 
子 (其 阳性 表示 由 低 到 高 共 3 个 等 级 ) 、 肾 癌 细胞 核 组 织 学 分 级 (由 低 到 高 共 4 级 ) 、 肾 细胞 
癌 组 织 内 微血管 数 、 肾 细胞 冶 分 期 (由 低 到 高 共 4 期 ) 之 间 的 关系 。 


表 13.1 20 名 肾 癌 患者 的 相关 数据 


二 | 上 细胞 癌 | 年 十 ”| 峭 细胞 疗 血 管 | 朝 癌 细胞 核 | 痛 细 胞 冶 组 织 内 [， 
编号 | 转移 情况 | / 岁 | 内 皮 生 长 因子 | 组 织 学 分 级 | 微血管 数 /个 /J | 写 细胞 癌 分 其 
1 0 60 3 3 46 1 
2 1 35 2 2 60 7 
3 1 64 1 1 146 3 
4 0 67 3 100 7 
5 0 54 3 4 97 3 


13.1.3 Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 6 个 变量 ,分别 是 肾 
细胞 癌 转 移 情况 、 年 龄 、 肾 细胞 癌 血 管内 皮 生 长 因子 、 肾 癌 细 胞 核 组 织 学 分 级 、 肾 细胞 癌 组 织 
内 微血管 数 和 肾 细 胞 癌 分 期 。 我 们 把 这 6 个 变量 分 别 定义 为 V1、V2、V3、V4、V5、V6。 变 
量 类 型 及 长 度 采取 系统 默认 方式 , 然后 录入 相关 数据 。 相 关 操 作 我 们 在 第 1 章 中 已 有 详细 讲述 。 
录入 完成 后 数据 如 图 13.1 所 示 。 

先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 又 如 下 

加 进入 Stata 14.0， 打 开 相 关 数 据 文件 ， 弹 出 主 界面 。 

加 在 主 界面 的 “Command” 文 本 框 中 输入 如 下 命令 。 


。 list V1-V6: 本 命令 的 含义 是 对 6 个 变量 所 包含 的 样本 数据 进行 一 一 展示 ， 以 便 简 单 
直观 地 观测 出 数据 的 具体 特征 ， 为 深入 分 析 做 好 必要 准备 。 

e。 reg V1V2V3V4V5V6: 本 命令 的 含义 是 以 V1 为 因 变 量 , 以 V2、V3、V4、V5、V6 
为 自 变量 ， 进 行 最 小 二 乘 回 归 分 析 ， 研 究 变量 之 间 的 因果 影响 关系 。 

。 logistic V1 V2V3 V4 V5 V6: 本 命令 的 含义 是 以 V1 为 因 变 量 ， 以 V2、V3、V4、V5、 
V6 为 自 变量 ， 进 行 二 元 Logistic 回归 分 析 ， 研 究 变 量 之 间 的 因果 影响 关系 。 其 中 自 
变量 的 影响 是 以 优势 比 (Odds Ratio ) 的 形式 输出 的 。 
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Fle Edit View Data Tools 


让 日 名 名 名 国名 了: 


waDl 

mn 3 ww - [三 | 
到 "|] se = = 中 2 [Fitervarisbles here 
ky 到 下 二 二 回 Name Label 


v1 
mv2 


mv3 
v4 | 
mvs | 
mve | 


i- 3 区 Variables [Snapsho 


a 
Raeslsss 


‘ 
Ready _ 


图 13.1 案例 13.1 数据 


e logit V1 V2 V3 V4 V5 V6: 本 命令 的 含义 是 以 V1 为 因 变量 ,以 V2、V3、V4、V5、 
V6 为 自 变 量 ， 进 行 二 元 Logistic 回归 分 析 ， 研 究 变量 之 间 的 因果 影响 关系 。 其 中 自 
变量 的 影响 是 以 回归 系数 的 形式 输出 的 。 

eestat clas: 本 命令 的 含义 是 计算 预测 准确 的 百分比 ， 并 提供 分 类 统计 和 分 类 表 。 

elstat:， 本 命令 是 上 条 命令 “estat clas” 的 另 一 种 表达 形式 。 

。 predict yhat: 本 命令 旨 在 估计 因 变 量 的 拟 合 值 。 它 创建 一 个 命名 为 yhat 的 新 变量 ， 等 
于 最 近 一 次 Logistic 模型 基础 上 y=1 的 预测 概率 。 

。 estat gof: 本 命令 旨 在 判断 模型 的 拟 合 效 果 ， 或 者 说 模型 的 解释 能 力 。 


设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 


13.1.4 结果 分 析 


在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 13.2~ 图 13.9 所 示 的 分 析 结 果 。 

图 13.2 是 对 数据 进行 展示 的 结果 。 它 的 目的 是 通过 对 变量 所 包含 的 样本 数据 进行 一 一 展 
示 ， 以 便 简 单 直观 地 观测 出 数据 的 具体 特征 ， 为 深入 分 析 做 好 必要 准备 。 

从 如 图 13.2 所 示 的 分 析 结 果 中 可 以 看 出 , 数据 的 总 体质 量 还 是 可 以 的 , 没有 极端 异常 值 ， 
变量 间 的 量 纲 差距 也 是 可 以 接受 的 ， 可 以 进入 下 一 步 的 分 析 。 

图 13.3 是 以 V1 为 因 变量 ， 以 V2、V3、V4、V5、V6 为 自 变量 ， 进 行 最 小 二 乘 回归 分 析 
的 结果 。 
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AN AAAAAN 


\\\ 
\\N \N\\ 
\\\N\ 以 
re vv ve 5 v6 
和 入 Ne 
Fr0 5 14)- 164 
aa Raquared > 9.1444 
i v5 | -io017381 ol08751 -O16 0.875 .025063 .0215868 
ey ve| i299m717 ‘126881 2.35 ot33 i027639 .5719045 
pe 人 cons .37871698 .9606104 0.82 0.426 -1.273134 2.847474 
| 
图 人 进行 展示 图 > 
图 13.2 ”对 数据 进行 展示 图 13.3 ”最 小 二 乘 回 归 


从 上 述 分 析 结 果 中 可 以 看 出 共有 20 个 样本 参与 了 分 析 ， 模 型 的 F 值 (5, 14) = 1.64，P 值 
(Prob > F) =0.2135， 说 明 模 型 整体 上 是 不 显著 的 。 模 型 的 可 决 系数 (R-squared) 为 0.3695， 
模型 修正 的 可 决 系数 (Adj R-squared) 为 0.1444， 说 明 模 型 的 解释 能 力也 是 比较 差 的 。 

变量 V2 的 系数 标准 误 是 0.0072331，t 值 为 -0.85，P 值 为 0.408， 系 数 是 不 显著 的 ，95% 
的 置信 区 间 为 [-0.0216826, 0.0093441]。 变 量 V3 的 系数 标准 误 是 0.1295916，t 值 为 -0.26，P 值 
为 0.801， 系 数 是 非常 不 显著 的 ，95% 的 置信 区 间 为 [-0.3112516，0.2446411]。 变 量 V4 的 系数 
标准 误 是 0.1165346，t 值 为 -1.78，P 值 为 0.097， 系 数 的 显著 性 一 般 ，95% 的 置信 区 间 为 
[-0.4570756，0.0428083]。 变 量 V5 的 系数 标准 误 是 0.0108751，t 值 为 -0.16，P 值 为 0.875， 系 
数 是 非常 不 显著 的 ，95% 的 置信 区 间 为 [-0.025063，0.0215868]。 变 量 V6 的 系数 标准 误 是 
0.126881，t 值 为 2.36，P 值 为 0.033， 系 数 是 非常 显著 的 ，95% 的 置信 区 间 为 [0.027639， 
0.5719045]。 常 数 项 的 系数 标准 误 是 0.9606104, t 值 为 0.82, P 值 为 0.426， 系 数 也 是 比较 不 显 
著 的 ，95% 的 置信 区 间 为 [-1.273134，2.847474]。 

从 上 述 分 析 结果 ， 我 们 可 以 得 到 最 小 二 乘 模型 的 回归 方程 是 : 


V1=-0.0061692*V2-0.0333053*V3 -0.2071337*V4 -0.0017381*V5+0.2997717*V6+0.7871698 


从 上 面 的 分 析 可 以 看 出 最 小 二 乘 线 性 模型 的 整体 显著 性 、 系 数 显著 性 以 及 模型 的 整体 解 
释 能 力 都 是 有 较 大 提升 空间 的 。 

图 13.4 是 以 V1 为 因 变量 ， 以 V2、V3、V4、V5、V6 为 自 变量 ， 进 行 二 元 Logistic 回归 
分 析 的 结果 。 其 中 ， 自 变量 的 影响 是 以 优势 比 〈Odds Ratio) 的 形式 输出 的 。 

从 图 13.4 可 以 看 出 Logistic 模型 相对 于 最 小 二 乘 回归 模型 得 到 了 很 大 程度 的 改进 。 模 型 
的 整体 显著 性 P 值 达到 了 9% 左 右 〈Prob > chi2=0.0934) 。 伪 R 方 达到 35% (Pseudo R2 = 
0.3500) ， 解 释 能 力 进一步 提高 。 各 个 变量 系数 的 显著 程度 也 有 不 同 程度 的 提高 ， 限 于 篇 幅 不 
再 歼 述 。 
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+ logistic V1 V2 V3 V4 V5 v6 


Logistic regression Number of obs = 20 
LR chi2 (5) = 9.42 

Prob > chiz2 = 0.0934 

Log likelihood = -8.7492827 Pseudo R2 = 0.3500 
Vi | odds Ratio Std, Err. = pylzl [95% Conf. Interval] 

ve -9376137 .0546723 -1.10 0.269 .8363544 = 1.051133 

v3 .6501124 .4840099 -0.58 0.563 -151101 -2.797111 

Va .2217138 .197692 -1.69 0.091 .0386203 1.272828 

v5 .9931318 .068624 -0.10 0.921 .8673414 = 1.137166 

ve 7.819255 8.382102 1.92 0.055 .9565164 63.92022 

cons 25.13991 = 160.7937 0.50 0.614 .0000904 6992105 


加 。 这 说 明 只 有 V6 是 与 因 变 量 呈 现 正 向 变化 ， 只 有 V6 使 得 因 变 量 取 1 的 概率 更 大 。 


图 13.4 二 元 Logistic 回归 

与 一 般 的 回归 形式 不 同 ， 此 处 自 变量 的 影响 是 以 优势 比 〈Odds Ratio) 的 形式 输出 的 ， 它 
的 含义 是 : 在 其 他 自 变量 保持 不 变 的 条 件 下 ， 被 观测 自 变量 每 增加 1 个 单位 时 y=1 的 发 生 比 
的 变化 倍数 。 可 以 看 出 ， 各 个 变量 中 只 有 V6 变量 的 增加 会 引起 因 变 量 取 1 值 的 大 于 1 倍 的 增 


图 13.5 是 以 V1 为 因 变量 ， 以 V2、V3、V4、V5、V6 为 自 变量 ， 进 行 二 元 Logistic 回归 
分 析 的 结果 。 其 中 ， 自 变量 的 影响 是 以 回归 系数 的 形式 输出 的 。 


Iteration 0: 
Iteration 1: 
Iteration 2: 
Iteration 3: 
Iteration 4: 
Iteration 5: 


+ logit VI V2 V3 v4 v5 v6 


log likelihood = -13.460233 
log likelihood = -9.046534 
log likelihood = -8.7562687 


log likelihood = -| 


492923 


log likelihood = -8.7492827 
log likelihood = -8.7492827 


Logistic regression Number of obs = 20 
LR chi2 (5) s 9.42 

Prob > chi2 = 0.0934 

Log likelihood = -8.7492827 Pseudo R2 = 0.3500 
V1 Coef. Std. Err. z pylzl [95% Conf。Interval] 

V2 | -.0644172 .05831 -1.10 0.269  -.1787028 .0498683 

va -.43061 .7445019 -0.58 0.563 -1.889807 1.028587 

Va | -1.506368 .8916537 -1.69 0.091 -3.253977 .2412414 

V5 | -.0068919 .0690986 -0.10 0.921  -.1423226 .1285388 

ve 2.056589 1.071982 1.92 0.055 。 -.0444574 。 4.157636 

cons 3.224457 。 6.395952 0.50 0.614 -9.311379 15.76029 


最 终 模型 表达 式 为 : 


LNV1= -0.0644172V2-0.43061V3 -1.506368V4 -0.0068919V5+ 2.056589V6+ 3.224457 


13.5” 自 变量 的 影响 以 回归 系数 形式 输出 


从 图 13.5 可 以 看 出 该 模型 与 使 用 Logistic 命令 回归 得 到 的 结果 是 一 致 的 ， 只 是 自 变量 影 
响 输出 的 形式 由 优势 比 换 成 了 回归 系数 。 


其 中 ，LNV1、V2、V3、V4、V5、V6 分 别 表示 肾 细胞 发 生 癌 转移 概率 的 对 数值 、 年 龄 、 
肾 细 胞 癌 血 管内 皮 生 长 因子 、 肾 癌 细 胞 核 组 织 学 分 级 、 肾 细胞 癌 组 织 内 微血管 数 和 肾 细胞 癌 分 


期 。 
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综 上 所 述 ， 我 们 的 研究 结论 是 : 年 龄 、 肾 细胞 癌 血 管内 皮 生 长 因子 、 肾 癌 细 胞 核 组 织 学 
分 级 、 肾 细胞 癌 组 织 内 微血管 数 与 肾 细 胞 癌 转 移 呈 反 向 变化 , 肾 细 胞 癌 分 期 与 肾 细 胞 癌 转移 呈 
正 向 变化 ， 但 这 些 变化 并 不 是 特别 显著 。 

图 13.6 是 计算 预测 准确 的 百分比 ， 并 提供 分 类 统计 和 分 类 表 的 结果 。 


.estat clas 


Logistic model for V1 


True 
Classified 


+ 


D 
6 
2 
8 


Tocal 


Classified + if predicted Pr(D) >= 
True D defined as V1 != 0 


Sensitivity pr( +| D) 75.00% 
Specificicy pr( -1~D) 83.33% 
Positive predictive value Pr( DI +) 75.00% 
Negative predictive value Pr(-D1 -) 83.33% 


+ race for true ~D Pr( +l-D) 16.67% 

se - rate for true D Pr( -| D) 25.00% 
are for classified + Pr(~D| +) 25.00% 

ate for classified - Pr(D| -) 16.67% 


tly classified 80.00% 


13.6 计算 预测 准确 的 百分比 


从 图 13.6 可 以 看 出 很 多 信息 。 按 照 系 统 默认 设置 , 系统 使 用 0.5 作为 分 割 点 。 分 类 中 的 D、 
-D、“+” 和 “-” 分 别 表示 的 含义 如 下 。 

。 D: 表示 一 个 观测 样本 所 关注 的 事件 的 确 发 生 了 ， 也 就 是 说 y 的 值 取 到 了 1， 在 本 例 
中 ， 也 就 是 说 肾 细 胞 确实 发 生 了 冶 转 移 。 

。 -D: 表示 一 个 观测 样本 所 关注 的 事件 的 确 没有 发 生 ， 也 就 是 说 y 的 值 取 到 了 0， 在 本 
例 中 ， 也 就 是 说 肾 细胞 确实 没有 发 生 癌 转 移 。 

e+: 表示 模型 预测 的 概率 值 大 于 分 割 点 ， 本 例 中 ， 也 就 是 说 模型 预测 的 肾 细 胞 发 生 冶 
转移 的 概率 为 0.5 或 者 更 多 。 

e -: 表示 模型 预测 的 概率 值 小 于 分 定点 ， 本 例 中 ， 也 就 是 说 模型 预测 的 肾 细胞 发 生 癌 
转移 的 概率 低 于 0.5。 


所 以 , 按照 模型 预测 肾 细胞 发 生 癌 转移 的 概率 至 少 在 0.5 以 上 的 标准 ， 有 6 次 是 肾 细胞 确 
实 发 生 了 癌 转 移 而 且 模型 预测 的 概率 值 大 于 分 割 点 ， 有 10 次 是 肾 细胞 确实 没有 发 生 癌 转移 而 
且 模 型 预测 的 概率 值 小 于 分 割 点 ， 所 以 ， 一 共有 16 个 样本 的 预测 是 正确 的 ， 预 测 正确 率 占 全 
部 样本 的 百 分 之 八 十 (80%) 。 有 2 次 是 肾 细 胞 确实 发 生 了 癌 转 移 但 模型 预测 的 概率 值 小 于 分 
割 点 , 有 2 次 是 肾 细胞 确实 没有 发 生 癌 转移 但 模型 预测 的 概率 值 大 于 分 割 点 , 一 共有 4 个 样本 
的 预测 是 错误 的 ， 预 测 错 误 率 占 全 部 样本 的 百 分 之 二 十 (20%) 。 

图 13.7 是 上 条 命令 “estat clas” 的 另 一 种 表达 形式 的 结果 。 该 结果 与 图 13.6 的 结果 一 致 。 
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ed + 证 predicted Pr(D| >- .5 
=0 


Prt +l D) 
rt -J 
Prt pl +) 
Pr (mpl -) 


Pr( +1~D) 
Ppr( -1 D) 
Pr (pl +) 
je ~ rate for claasified -pr( bl -) 


图 13.7 分 析 结 果 图 


图 13.8 是 对 因 变 量 的 拟 合 值 的 预测 。 选 择 “Data”| “Data Editor”| “Data Editor(Browse)” 
命令 ， 进 入 数据 查看 界面 ， 可 以 看 到 如 图 13.8 所 示 的 yhat 数据 。 


1 
上 
日 四 » 四 的 
‘ 


的 3 


四 


ED 


图 13.8 ”对 变量 拟 合 值 的 预测 

二 元 Logistic 的 因 变 量 拟 合 值 预测 结果 表示 的 含义 是 y=1 的 概率 , 本 例 所 表示 的 含义 是 肾 
细胞 发 生 癌 转移 的 概率 。 

图 13.9 是 对 Logistic 模型 拟 合 效果 的 分 析 结 果 。 


. estat gof 


Logistio model for Vi, goodness-of-fit test 


number of observations = 20 


number of covariate patterns = 20 
Pearson chi2(14) = 15.42 
Prob > chi2 = 0.3503 


图 13.9 对 Logistic 模型 拟 合 效果 的 分 析 结 果 
可 以 看 到 Prob > chi2 =0.3503， 说 明 模型 的 解释 能 力 还 是 差强人意 的 ， 但 比 最 小 二 乘 线性 
回归 模型 要 好 出 很 多 。 
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13.1.5 ”案例 延伸 


上 述 的 Stata 命令 比较 简洁 ， 分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 

1. 延伸 1: 设 定 模型 预测 概率 的 具体 值 

我 们 在 上 述 分 析 过 程 和 结果 分 析 中 都 用 的 是 系统 默认 设置 的 0.5 概率 对 模型 估计 有 效 性 
进行 的 评价 。 事 实 上 , 我 们 完全 可 以 自由 设 定 需要 的 概率 水 平 对 模型 做 出 评价 。 例 如 ， 我 们 要 
求 预测 概率 达到 80%， 那 么 操作 命令 就 是 : 


estat clas,cutoff(0.8)r 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 13.10 所 示 。 


，estat clas,cutoff(0.8) 
Logaacac moasl ror v1 


True 


D 
3 
5 
a 


+ if predicted Pr(D) >= .| 


rreccly classified 


图 13.10 ” 设 定 模型 预测 概率 的 具体 值 


从 上 面 的 分 析 结 果 中 可 以 看 出 在 设置 概率 为 0.8 的 时 候 ， 模 型 的 预测 正确 性 降 到 了 75%。 
读者 可 以 自行 设 定 其 他 的 概率 水 平 继续 进行 深入 研究 。 

2. 延伸 2: 使 用 probit 模型 对 二 分 类 因 变量 进行 拟 合 

以 本 节 中 介绍 的 实例 进行 说 明 ， 那 么 操作 命令 如 下 。 

(1) probit Vl V2 V3 V4 V5 V6 

本 命令 的 含义 是 以 V1 为 因 变量 ， 以 V2、V3、V4、V5、V6 为 自 变量 ， 进 行 probit 回归 
分 析 ， 研 究 变 量 之 间 的 因果 影响 关系 。 


(2) mfx 
本 命令 虽 在 计算 在 样本 均值 处 的 边际 效应 。 


(3 ) estat clas 


本 命令 的 含义 是 计算 预测 准确 的 百分比 ， 并 提供 分 类 统计 和 分 类 表 。 
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(4) predict yhat 


本 命令 则 在 估计 因 变 量 的 拟 合 值 。 它 创建 一 个 命名 为 yhat 的 新 变量 , 等 于 最 近 一 次 Probit 
模型 基础 上 y=1 的 预测 概率 。 

在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 13.11~ 图 13.14 所 示 。 

图 13.11 是 以 V1 为 因 变 量 ， 以 V2、V3、V4、V5、V6 为 自 变 量 ， 进 行 Probit 回归 分 析 
的 结果 。 


skelihood = -8.6723658 


dd = -8.6723655 


og likelihocd ~ -0.6723655 


Coef, std. Err. 


-0387215 .0346081 -1 .1065521 
2537105 。 ,4397551 。 -0 349 -1,125623 
-9287975 。 .5247439 -i i 1.957277 
-0049234 。 .0403986 -0. 一 .0841032 
1.227209 。 ,5931803 .90645876 
2.064971 。 3.774138 -5.332204 。 9.462146 


13.11 Probit 回归 


从 上 面 的 分 析 结 果 中 可 以 看 出 ，Probit 模型 与 Logistic 模型 所 得 的 结果 相差 不 大 ， 模 型 整 
体 的 显著 程度 和 解释 能 力 都 相 比 最 小 二 乘 回归 分 析 有 所 提高 。 
图 13.12 是 在 样本 均值 处 的 边际 效应 结果 。 


= .30025942 


dy/dx Std. Err. = pylzl [ 9sycI J] 


.0134604 i g .034375 .007430 
~.0917288 g 0. ~.383269 .199811 
~.3230623 六 1.97 0.049 -~.6449 -.001224 
-0017125 攻 一 .029307 -na58s? 
.4268564 Si 了 ,063298 .789419 


图 13.12 在 样本 均值 处 的 边际 效应 结果 


从 图 13.12 可 以 看 出 , Probit 模型 在 样本 均值 处 的 边际 效应 与 最 小 二 乘 回归 分 析 相 差 不 大 。 

图 13.13 是 计算 预测 准确 的 百分比 ， 并 提供 分 类 统计 和 分 类 表 的 结果 。 

从 图 13.13 可 以 看 出 预测 正确 率 占 全 部 样本 的 百 分 之 八 十 (80%) ， 这 与 Logistic 模型 得 
到 的 结论 是 相同 的 。 

图 13.14 是 对 因 变 量 的 拟 合 值 的 预测 。 选择 “Data”| “Data Editor”|“Data Editor(Browse)” 
命令 ， 进 入 数据 查看 界面 ， 可 以 看 到 如 图 13.14 所 示 的 yhat 数据 。 

与 Logistic 模型 相同 ，Probit 模型 的 因 变量 拟 合 值 预 测 结果 表示 的 含义 也 是 y=1 的 概率 ， 
本 例 所 表示 的 含义 同样 是 肾 细 胞 发 生 癌 转 移 的 概率 。 
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图 13.13 ”计算 预测 准确 的 百分比 i PRE 
13.2 ”实例 二 一 一 多 元 Logistic 回 归 分 析 


13.2.1 多 元 Logistic 回归 分 析 的 功能 与 意义 
我 们 经 常会 遇 到 因 变量 有 多 个 取 值 而 且 无 大 小 顺序 的 情况 ， 例 如 职业 、 婚 姻 情 况 等 ， 这 
时 一 般 的 线性 回归 分 析 无 法 准确 地 刻画 变量 之 间 的 因果 关系 ,需要 用 其 他 的 回归 分 析 方 法 来 进 
行 拟 合 模型 。Stata 的 多 项 分 类 Logistic 回归 便 是 一 种 简便 的 处 理 该 类 因 变 量 问题 的 分 析 方法 。 


13.2.2 ”相关 数据 来 源 


B= 下 载 资源 :\Wideo\chap13\… 


王 | 下 载 资源 :samplevchap13\ 案 例 13.2.dta 


【 例 13.2] 表 13.2 给 出 了 对 山东 省 某 中 学 20 名 视力 低下 学 生 视力 监测 的 结果 数据 。 试 用 
多 项 分 类 Logistic 回归 方法 分 析 视 力 低下 程度 (由 轻 到 重 共 3 级 ) 与 年 龄 、 性 别 〈1 代表 男性 ， 
2 代表 女性 ) 之 间 的 关系 。 


表 13.2 山东 省 某 中 学 20 名 学 生 视力 监测 结果 数据 


编号 视力 低下 程度 
1 1 
2 1 
3 | > 
4 可 


"ao 
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13.2.3 ”Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 3 个 变量 ， 分 别 是 视 
力 低下 程度 、 性 别 和 年 龄 。 我 们 把 视力 低下 程度 变量 设 定 为 V1， 把 性 别 变量 设 定 为 V2， 把 年 
龄 变量 设 定 为 V3， 变量 类 型 及 长 度 采 取 系统 默 认 方 式 ， 然 后 录入 相关 数据 。 相 关 操 作 我 们 在 
第 1 章 中 已 有 详细 讲述 。 录 入 完成 后 数据 如 图 13.15 所 示 。 


Data tdior td -人 852dol 0. EL > | 
File Edit View Data Tools 
区 回 串 相 也 国 台 了 : 
vi] 1 
Eee = wa ^ Variables 3 
> | : 和 A Filter variobles her 
2 2 2 和 BName Label 
3 这 中 v1 
下 3 日 3 网 V2 
‘ 了 Nav 
> Variables (SnapsRoe 
bE 1 2 327 Propenties 了 | 
日 varables 
Name wi 
于 i 3 图 Label 上 
Type double 
Format %100g 
Value label 
Notes 
Dot 
1 是 pr PE 
Ready Vars: 3 Order Dataset Obs:20 Filter: Off Mode: Edit NUM x 


图 13.15 案例 13.2 数据 
先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 骤 如 下 : 


加 进入 Stata 14.0， 打 开 相 关 数据 文件 ， 弹 出 主 界面 。 
加 在 主 界面 的 “Command” 文 本 框 中 输入 操作 命令 并 按键 盘 上 的 回 车 键 进 行 确认 。 本 
例 中 提 到 的 各 步 要 求 对 应 的 命令 分 别 如 下 。 
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。 list V1-V3: 本 命令 的 含义 是 对 3 个 变量 所 包含 的 样本 数据 进行 一 一 展示 ， 以 便 简单 
直观 地 观测 出 数据 的 具体 特征 ， 为 深入 分 析 做 好 必要 准备 。 

。 reg V1 V2 V3: 本 命令 的 含义 是 以 V1 为 因 变 量 ， 以 V2、V3 为 自 变量 ， 进 行 最 小 二 
乘 回 归 分 析 ， 研 究 变量 之 间 的 因果 影响 关系 。 

emlogitV1 V2 V3,base(1): 本 命令 的 含义 是 以 V1 为 因 变 量 ,以 V2、V3 为 自 变 量 ， 并 
设 定 第 1 组 为 参照 组 (视力 低下 程度 为 1 )， 进 行 多 元 Logistic 回归 分 析 ， 研 究 变量 之 
间 的 因果 影响 关系 。 其 中 自 变 量 的 影响 是 以 回归 系数 的 形式 输出 的 。 

。 mlogit V1 V2 V3,base(1) rrr: 本 命令 的 含义 是 以 V1 为 因 变 量 ， 以 V2、V3 为 自 变量 ， 
并 设 定 第 1 组 为 参照 组 (视力 低下 程度 为 1 )， 进 行 多 元 Logistic 回归 分 析 ， 研 究 变 量 
之 间 的 因果 影响 关系 。 其 中 ， 自 变量 的 影响 是 以 相对 风险 比率 的 形式 输出 的 。 


13.2.4 结果 分 析 


在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 13.16~ 图 13.19 所 示 的 分 析 结 果 。 
图 13.16 是 对 数据 进行 展示 的 结果 。 它 的 目的 是 通过 对 变量 所 包含 的 样本 数据 进行 一 一 展 
示 ， 以 便 简单 直观 地 观测 出 数据 的 具体 特征 ， 为 深入 分 析 做 好 必要 准备 。 


,list V1-V3 


图 13.16 ”对 数据 进行 展示 


在 如 图 13.16 所 示 的 分 析 结 果 中 可 以 看 出 , 数据 的 总 体质 量 还 是 可 以 的 , 没有 极端 异常 值 ， 
变量 间 的 量 纲 差距 也 是 可 以 接受 的 ， 可 以 进入 下 一 步 的 分 析 。 
图 13.17 是 以 V1 为 因 变量 ， 以 V2、V3 为 自 变量 ， 进 行 最 小 二 乘 回归 分 析 的 结果 。 
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reg Vi V2 V3 
Source E33 ar 9 Number of oba = 20 
rt 17)- 6.56 

Hodel 5.3125 2 2.65625 Prob > 了 = 0.0078 
Residual 6.8875 17 .405147059 R-squared = 0.4355 
aaj Bp-squared = 0.3690 

Toral 12.2 19 .642105263 Roor NsE = .63651 
ma Cosf. Std. Err. | [sss Conf. Interval] 

ve .5833333 .3000545 1.94 0.069  -.0497262 1.216393 

v3 .2708333 .1186069 2.28 0.036 .0205946 .5210721 

cons | -3.508333 1.812165 -1.94 0.070 -7.331667 .3150006 


图 13.17 ”最 小 二 乘 回归 分 析 


从 上 述 分 析 结果 中 可 以 看 出 共有 20 个 样本 参与 了 分 析 ， 模 型 的 F 值 (2, 17) = 6.56, P 值 
(Prob > F) = 0.0078, 说 明 模型 整体 上 是 比较 显著 的 。 模 型 的 可 决 系数 (R-squared) = 0.4355， 
模型 修正 的 可 决 系数 (Adj R-squared) = 0.3690， 说 明 模 型 的 解释 能 力 差 强人 意 。 

变量 V2 的 系数 标准 误 是 0.3000545，t 值 为 1.94，P 值 为 0.069， 系 数 显著 性 是 勉强 过 得 
去 的 ，95% 的 置信 区 间 为 [-0.0497262，1.216393]。 变 量 V3 的 系数 标准 误 是 0.1186069，t 值 为 
2.28，P 值 为 0.036， 系 数 是 比较 显著 的 ，95% 的 置信 区 间 为 [0.0205946, 0.5210721]。 常 数 项 的 
系数 标准 误 是 1.812165，t 值 为 -1.94，P 值 为 0.070， 系 数 显 著 性 是 勉强 过 得 去 的 ，95% 的 置信 
区 间 为 [-7.331667,0.3150006]。 

从 上 述 分 析 结 果 可 以 得 到 最 小 二 乘 模型 的 回归 方程 是 : 

V1=0.583333 *V2 +0.2708333 *V3-3.508333 

从 上 面 的 分 析 可 以 看 出 最 小 二 乘 线性 模型 的 整体 显著 性 和 系数 显著 性 以 及 模型 的 整体 解 
释 能 力 都 是 勉强 过 得 去 的 。 


图 13.18 是 以 V1 为 因 变量 ， 以 V2、V3 为 自 变量 ， 并 设 定 第 1 组 为 参照 组 (视力 低下 程度 为 
1) ， 进 行 多 元 Logistic 回归 分 析 的 结果 。 其 中 ， 自 变量 的 影响 是 以 回归 系数 的 形式 输出 的 。 


mlogit Vi VO Va,hase(1) 


有 base outcome) 
: 
vy 7322629 1.183462 0.62 0.536 -1.537281 。 3.051905 
证 | .8336366 .4962461 1.63 0.094 。 -.1408878 。 1.812201 
_eona | -14.82979 8.211396 -1.81 0.071 -30.92383 1.264249 
: 
证 | 18.39871 1952.113 0.01 0.993 -3866.474 。 3903.272 
ma | 2ll2522 1.181372 1.79 0.074 -.2029232 。 4.427968 
cons | -711.13788 3964.291 -0.92 0.386 -7841.003 7696.729 


图 13.18 多 元 Logistic 回归 分 析 
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P 值 达 到 了 0.0079 左右 (Prob > chi2=0.0079) 。 伪 RR 方 达到 33.58% (Pseudo R2 = 0.3358) ， 
解释 能 力 进一步 提高 。 

从 图 13.18 中 可 以 看 到 V2 和 V3 系数 在 第 2 组 和 第 3 组 都 是 大 于 0 的 ， 这 意味 着 V2 和 
V3 两 个 变量 的 值 越 大 就 越 容易 被 分 到 2、3 组 ， 这 表示 性 别 为 女 ， 年 龄 越 大 ， 越 容易 被 分 到 中 
度 视力 低下 、 重 度 视力 低下 组 。 

最 终 模型 方程 为 : 


G1=0， 因 为 轻 度 是 因 变 量 中 的 参考 组 ， 其 所 有 系数 均 为 0。 

G2=LOG[P( 低 下 中 度 )P( 低 下 轻 度 )]= -14.82979+0.8356566* 年 龄 +0.732262* 性 别 1。 

G3= LOG[P( 低 下 重度 )/P( 低 下 轻 度 )]= -71.13788+2. 112522* 年 龄 +18.39871* 性 别 1。 
图 13.19 是 以 V1 为 因 变 量 ， 以 V2、V3 为 自 变量 ， 进 行 多 元 Logistic 回归 分 析 的 结果 。 

其 中 ， 自 变量 的 影响 是 以 相对 风险 比率 的 形式 输出 的 。 


+ moglt Vl V2 v3,base(1) rrr 


ceraclon 0: 
ce 1 


(base outcone) 


2.07978 。 2.461331 2044808 21.1535 
2.306328 。 1.149119 区 .8685868 6.123911 
3.63e-07 2.98e-D6 -1. 3.71e-14 。 3.540432 


9.78e+07 。 1.94erll 0 5 
8.269073 。 9.768848 8163409 。 83.76105 
1.27e-31 5.05e-28 -0. 0 


图 13.19 自 变量 的 影响 以 相对 风险 比率 的 形式 输出 


与 二 元 Logistic 中 的 优势 比 〈Odds Ratio) 的 概念 类 似 ， 相 对 风险 比率 的 含义 是 : 在 其 他 
自 变量 保持 不 变 的 条 件 下 ， 被 观测 自 变量 每 增加 1 个 单位 时 y=1 的 发 生 比 的 变化 倍数 。 可 以 
看 出 , 当 V2 增加 或 者 说 性 别 为 女生 时 , 它 会 有 相当 大 的 概率 被 分 到 第 3 组 , 即 重度 视力 低下 ， 
当年 龄 偏 大 时 ， 它 也 有 较 大 的 概率 被 分 到 第 3 组 ， 即 重度 视力 低下 。 


13.2.5 ”案例 延伸 


上 述 的 Stata 命令 比较 简洁 ， 分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 
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延伸 : 根据 模型 预测 每 个 观测 样本 视力 低下 程度 的 可 能 性 
以 本 节 中 介绍 的 实例 进行 说 明 ， 那 么 操作 命令 就 是 : 
Predict eyel eye2 eye3 


图 13.20 是 根据 模型 预测 每 个 观测 样本 视力 低下 程度 的 可 能 性 的 结果 .选择 “Data 下 Data Editor” 
|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 到 如 图 13.20 所 示 的 eyel~eye3 数据 。 


一 aa 
CE 
| 
.ed 
,ed md 
1 
. ee 
,Eo En 
es ee 
ee 
ee mn ee 
,el ed 

e ed Ee 
me 
a a 


| 


13.20 ”根据 模型 预测 样本 视力 低下 程度 


如 图 13.20 所 示 ， 第 1 个 观测 样本 为 男性 ，15 岁 ， 他 有 80% 以 上 的 概率 进入 第 1 组 ， 即 
轻 度 视力 低下 ,有 极 小 的 甚至 可 以 忽略 不 计 的 概率 被 分 到 第 3 组 ， 即 重度 视力 低下 。 其 他 的 观 
测 样本 ， 读 者 可 以 按照 类 似 的 方法 逐一 进行 分 析 ， 可 以 看 出 ， 我 们 的 模型 构建 的 不 错 ， 模 型 的 
预测 能 力也 是 比较 优秀 的 。 


13.3 ”实例 三 一 一 有 序 Logistic 回 归 分 析 


13.3.1 有 序 Logistic 回归 分 析 的 功能 与 意义 


在 有 些 分 析 研 究 中 ， 因 变量 虽然 离散 但 存在 着 一 定 的 排序 ， 例 如 消费 者 对 服务 行业 满意 
度 的 评价 (很 满意 、 基 本 满意 、 不 满意 、 很 不 满意 ) ， 又 例如 消费 者 对 某 种 品牌 产品 的 忠诚 度 
的 衡量 (很 喜欢 、 比 较 喜 欢 、 不 喜欢 、 很 不 喜欢 ) 。 在 上 述 情况 下 ， 使 用 普通 最 小 二 乘 回归 分 
析 以 及 二 元 或 多 元 Logistic 回归 分 析 都 不 能 获得 比较 好 的 效果 , 这 时 就 需要 用 到 我 们 本 节 介 绍 
的 有 序 Logistic 回归 分 析 。 


13.3.2 ”相关 数据 来 源 


B= 下 载 资源 :videovehapl3v… 


画 下 载 资源 :\sample\chap13\ 案 例 13.3.dta 


【 例 13.3】 为 了 获得 消费 者 的 满意 度 情况 ， 某 公司 对 120 位 随机 抽取 的 消费 者 进行 了 调 


275 


WANN 


\ 


查 ， 其 中 


\ A Stata 统 计 分 析 与 行业 应 用 案例 详解 (第? 版) 
\\\ \ \\\\\ 


\\\ 
NAN 


回收 有 效 样本 114 个 ， 相 关 信息 如 表 13.3 所 示 。 试 用 有 序 Logistic 回归 方法 分 析 消 


费 者 满意 程度 〈1 表示 很 满意 ，2 表示 基本 满意 ，3 表示 不 满意 ) 与 性 别 〈1 代表 男性 ，2 代表 
女性 ) 、 


学 历 (1 表示 大 学 专科 及 以 下 ，2 表示 大 学 本 科 ，3 表示 研究 生 及 以 上 ) 之 间 的 关系 。 
表 13.3 某 公 司 调查 的 114 位 消费 者 信息 情况 数据 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 3 个 变量 ， 分 别 是 消 
费 者 满意 程度 、 性 别 和 学 历 。 我 们 把 消费 者 满意 程度 变量 设 定 为 V1， 把 性 别 变 量 设 定 为 V2， 
把 学 历 变量 设 定 为 V3， 变 量 类 型 及 长 度 采取 系统 默认 方式 ， 然 后 录入 相关 数据 。 相 关 操 作 我 
们 在 第 1 章 中 已 有 详细 讲述 。 录 入 完成 后 数据 如 图 13.21 所 示 。 

先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 骤 如 下 : 

进入 Stata 14.0， 打 开 相关 数据 文件 ， 弹 出 主 界面 。 

贺 在 主 界面 的 “Command” 文 本 框 中 输入 操作 命令 并 按键 盘 上 的 回 车 键 进行 确认 。 本 
例 中 提 到 的 各 步 要 求 对 应 的 命令 分 别 如 下 。 


list V1-V3: 本 命令 的 含义 是 对 3 个 变量 所 包含 的 样本 数据 进行 一 一 展示 ， 以 便 简 单 
直观 地 观测 出 数据 的 具体 特征 ， 为 深入 分 析 做 好 必要 准备 。 

reg V1 V2 V3: 本 命令 的 含义 是 以 V1 为 因 变 量 ， 以 V2、V3 为 自 变量 ， 进 行 最 小 二 
乘 回归 分 析 ， 研 究 变 量 之 间 的 因果 影响 关系 。 

ologit V1V2 V3: 本 命令 的 含义 是 以 V1 为 因 变量 , 以 V2、V3 为 自 变量 ,进行 有 序 
Logistic 回归 分 析 ， 研 究 变 量 之 间 的 因果 影响 关系 。 

predict satisfyl satisfy2 satisfy3: 本 命令 的 含义 是 根据 模型 预测 每 个 观测 样本 满意 程度 
的 可 能 性 的 结果 。 


第 13 章 Stata 
\\\\\\\N 
口 ctioredo- Euisido 0 = 2) 
Fle Edit View Data Tools 
蕊 回 业 名 总 国名 了 : 
iy 1 


Logistic 回 归 分 析 


\\\\\\\\\\\\\AAANANA\ 人 \ 


区 varables [ 居 Spapshot 


| 
la Variables ~ 
3 Name vi | 
be > Label 习 
国 一 Type doubie | 
六 1 Format %100g 
的 : s value label 


图 13.21 案例 13.3 数据 


在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 13.22~ 图 13.25 所 示 的 分 析 结 果 。 
图 13.22 是 对 数据 进行 展示 的 结果 。 它 的 目的 是 通过 对 变量 所 包含 的 样本 数据 进行 一 一 展 
示 ， 以 便 简 单 直观 地 观测 出 数据 的 具体 特征 ， 为 深入 分 析 做 好 必要 准备 。 


J 
List Vi-v3 于 
2 1 2 
| 
-| 
lls 2. 3 CE 2 
ee | | 
1 1 1 第 2 Et 64. 2 ; 2 
2 1 1 | 65 ( 汪 芭 这 
3 2 1 2 最 2 
4. | 2 2 | 
9 医 = - 了 人 和 
Pe | 注 三 和 
全 本 -| | 生生 宝 
区 = -| | 和 SI 二 下 六 
和 二 SR 
Dy 入 六 2 1 2 21 a 二 
bp . bs 72. t 2 2 
10. 3 2 | es ee 
Fs | | 
A | 和 | 和 
og 医 全 
13. | 六 5 | 和 
rl | | 和 
15. 1 2 .SE a We 
3 2 alllw.|2: :1 2 
| ee 1 1 1llle.|s »。 » 
守 厂 一 一 一 
i 汪 | | | 
国医 本 a 县 > 全 <， 
19. | 1 1 i | | 
0: | 2 || | i 
a a alllss.|2: :1 := 
| 和 - 
| 县 坟 Pe | 
| “全 齐 二 用 
24. 1 1 和 ja a 
25. 2 这 肖 汪 人 生 本 
Fo | 


13.22 ”对 数据 进行 展示 
在 如 图 13.22 所 示 的 分 析 结 果 中 可 以 看 出 , 数据 的 总 体质 量 还 是 可 以 的 , 没有 极端 异常 值 ， 
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变量 间 的 量 纲 差距 也 是 可 以 接受 的 ， 可 以 进入 下 一 步 的 分 析 。 
图 13.23 是 以 V1 为 因 变量 ， 以 V2、V3 为 自 变 量 ， 进 行 最 小 二 乘 回归 分 析 的 结果 。 


reg V1 V2 V3 
Source ss 上 ns Number of obs = 114 
FT( 2， 111) = 112.42 

Nodel | 51.0694713 2 25.5347356 Prob > 了 = 0.0000 
Residual | 25.2112305 111 .227128203 R-squared = 0.6695 
Adj R-squared = 0.6635 

Toral | 76.2807018 113 .675050458 Root NSE = .47658 
vi Coef. Std. Err. t Pp>ltl [95% Conf. Interval] 

ve .7219745 。 .1069115 6.75 0.000 .5101221 ,9338268 

v3 .5331441 .0665703 8.01 0.000 .4012307 .6650576 
_cons | -.1616663 .144898 -1.12 0.267 。 -.4487914 .1254587 


13.23 ”最 小 二 乘 回归 分 析 


从 上 述 分 析 结 果 中 可 以 看 出 共有 114 个 样本 参与 了 分 析 ， 模 型 的 F 值 (2, 111) =112.42，P 
值 (Prob >F) =0.0000， 说 明 模型 整体 上 比较 显著 。 模 型 的 可 决 系数 (R-squared) 为 0.6695， 
模型 修正 的 可 决 系数 (Adj R-squared) 为 0.6635， 说 明 模 型 的 解释 能 力 差强人意 。 

变量 V2 的 系数 标准 误 是 0.1069115，t 值 为 6.75，P 值 为 0.000， 系 数 显著 性 是 非常 不 错 
的 ,95% 的 置信 区 间 为 [0.5101221, 0.9338268]。 变量 V3 的 系数 标准 误 是 0.0665703,t 值 为 8.01， 
P 值 为 0.000， 系 数 是 非常 显著 的 ，95% 的 置信 区 间 为 [0.4012307, 0.6650576]。 常 数 项 的 系数 标 
准 误 是 0.144898，t 值 为 -1.12，P 值 为 0.267， 系 数 显著 性 是 勉强 过 得 去 的 ，95% 的 置信 区 间 为 
[-0.4487914, 0.1254587]。 

从 上 述 分 析 结 果 可 以 得 到 最 小 二 乘 模 型 的 回归 方程 是 : 


V1=0.7219745*V2 +0.5331441*V3 -0.1616663 


从 上 面 的 分 析 可 以 看 出 最 小 二 乘 线性 模型 的 整体 显著 性 、 系 数 显 著 性 以 及 模型 的 整体 解 
释 能 力 都 是 可 以 的 。 
图 13.24 是 以 V1 为 因 变量 ， 以 V2、V3 为 自 变量 ， 进 行 有 序 Logistic 回归 分 析 的 结果 。 


+ ologit Vi 92 四 


Naber of ob= ~ 114 
LB chi2(2) -~ 112.95 

prob > ehi2 = 0.0000 

Log likelihood = -67.476268 Pseudo 32 = .554 
机 Coef. Std. Err. s pzlzl [95s Conf. Interval] 

人 | 2.030534 .5714954 4.95 0.000 1.710424 -3.950645 

wa | 2.357495 .4023518 = 5.86 0.000 1.5689 3.14609 

/eatl 了.23271 1.018613 3.236252 -9.229138 

outa | 10.36945 1.340969 3741391 12.9975 


图 13.24 ”进行 有 序 Logistic 回归 分 析 
从 图 13.24 可 以 看 出 有 序 Logistic 模型 与 最 小 二 乘 回归 估计 效果 相差 不 大 。 模 型 的 整体 显 


278 


、 \ \ \ \ 
、、 


著 性 P 值 远 远 低 于 5% (Prob > chi2=0.0079) 。 伪 民 方 达到 45.54% (Pseudo R2=0.4554) 。 

从 图 13.24 中 可 以 看 到 V2 和 V3 系数 在 第 2 组 和 第 3 组 都 是 大 于 0 的 ， 这 意味 着 V2 和 
V3 两 个 变量 的 值 越 大 越 容易 被 分 到 后 面 的 组 ， 表 示 性 别 为 女 ， 学 历 越 高 ， 越 容易 被 分 到 消费 
者 满意 程度 较 低 的 组 。 

“/eutl” 和 “/eut2” 表 示 的 含义 是 割 点 的 估计 值 ， 两 个 割 点 把 样本 分 成 了 3 个 区 间 ， 也 
就 是 消费 者 3 个 不 同 的 满意 程度 。 当 样本 的 因 变 量 拟 合 值 在 “/cut1” 之 下 时 ， 它 被 分 到 第 1 
组 ， 消 费 者 满意 程度 为 最 高 ， 当 样本 的 因 变 量 拟 合 值 在 “/cut1” 之 上 且 在 “/cut2” 之 下 时 , 它 
被 分 到 第 2 组 , 消费 者 满意 程度 为 中 度 ， 当 样 本 的 因 变 量 拟 合 值 在 “/cut2” 之 上 时 ， 它 被 分 到 
第 3 组 ， 消 费 者 满意 程度 为 最 低 。 

图 13.25 是 根据 模型 预测 每 个 观测 样本 消费 者 满意 程度 的 可 能 性 的 结果 。 选 择 “Data”| 
“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 到 如 图 13.25 所 示 的 
satisfy1~satisfy3 数据 。 
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图 13.25 ”根据 模型 预测 消费 者 满意 程度 


如 图 13.25 所 示 ， 第 1 个 观测 样本 为 男性 ， 学 历 为 大 学 专科 及 以 下 ， 他 有 88% 以 上 的 概率 
进入 第 1 组 ， 即 消费 者 满意 程度 为 最 高 ， 有 极 小 的 甚至 可 以 忽略 不 计 的 概率 被 分 到 第 3 组 ， 即 
消费 者 满意 程度 为 最 低 。 其 他 的 观测 样本 , 读者 可 以 按照 类 似 的 方法 逐一 进行 分 析 , 可 以 看 出 ， 
我 们 的 模型 构建 的 不 错 ， 模 型 的 预测 能 力也 是 比较 优秀 的 。 


13.3.5 “案例 延伸 
上 述 的 Stata 命令 比较 简洁 ， 分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 
延伸 : 使 用 Probit 模型 对 有 序 分 类 因 变 量 进 行 拟 合 
以 本 节 中 介绍 的 实例 进行 说 明 ， 那 么 操作 命令 如 下 。 


(1) oprobit Vl V2 V3 
本 命令 的 含义 是 以 V1 为 因 变 量 ， 以 V2、V3 为 自 变 量 ， 进 行 Probit 回归 分 析 ， 研 究 变 量 
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之 间 的 因果 影响 关系 。 


(2) predict satisfyl satisfy2 satisfy3 
本 命令 虽 在 估计 因 变 量 的 拟 合 值 。 它 创建 一 个 命名 为 yhat 的 新 变量 , 等 于 最 近 一 次 Probit 
模型 基础 上 y=1 的 预测 概率 。 
在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 13.26 和 图 13.27 所 示 。 
图 13.26 是 以 V1 为 因 变 量 ， 以 V2、V3 为 自 变量 ， 进 行 有 序 Probit 回归 分 析 的 结果 。 


nn Coef. Std, Err. zpylzl [95% Corf. 1ntervall 


1.593445 .29390913 5.42 0.000 14.017420 2.169461 
1.392347 .2041027 6.48 Nn.000 -9922136 -1.799981 


Yeucl .16763 。 .5212681 3.145963 。 5.189297 
/eve2 | 5.874543 .6518366 #596967 。 7.152119 


图 13.26 ”进行 有 序 Probit 回归 分 析 


从 上 面 的 分 析 结 果 中 可 以 看 出 ，Probit 模型 与 Logistic 模型 所 得 结果 相差 不 大 ， 对 本 结果 
的 详细 解读 限于 篇 幅 ， 不 再 效 述 。 

图 13.27 是 根据 模型 预测 每 个 观测 样本 消费 者 满意 程度 的 可 能 性 的 结果 。 选 择 “Data”| 
“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 到 如 图 13.27 所 示 的 
satisfy1~satisfy3 数据 。 


日 
5 
5 
日 
日 
53 
日 


In 
和 
HHIHENEHEHEHE 


图 13.27 根据 模型 预测 消费 者 满意 程度 


如 图 13.27 所 示 , 第 1 个 观测 样本 为 男性 ,学历 为 大 学 专科 及 以 下 ,他 有 89% 以 上 的 概率 
进入 第 1 组 , 即 消费 者 满意 程度 为 最 高 ,有 极 小 的 甚至 可 以 忽略 不 计 的 概率 被 分 到 第 3 组 ， 即 
消费 者 满意 程度 为 最 低 。 其 他 的 观测 样本 , 读者 可 以 按照 类 似 的 方法 逐一 进行 分 析 , 可 以 看 出 ， 
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\\ \\ 


我 们 的 模型 构建 的 不 错 ， 模 型 的 预测 能 力也 是 比较 优秀 的 。 


13.4 ”本 章 习 题 


(1) 表 13.4 给 出 了 20 名 前 列 腺 癌 患 者 的 相关 数据 。 试 用 二 元 Logistic 回归 方法 分 析 患 
者 前 列 腺 细胞 癌 转 移 情况 (有 转移 y=1、 无 转移 y=0) 与 患者 年 龄 、 前 列 腺 细胞 癌 血 管内 皮 生 
长 因子 (由 低 到 高 共 3 个 等 级 ) 、 术 前 探 针 活检 病理 分 级 (从 低 到 高 共 4 级) 、 酸 性 磷酸 酯 酶 、 
前 列 腺 细胞 癌 分 期 (由 低 到 高 共 4 期 ) 之 间 的 关系 。 


表 13.4 20 名 前 列 腺 癌 患 者 的 相关 数据 


0 

0 51 
0 1 
3 
1 
2 
3 
1 
68 1 
18 1 34 3 2 | 67 3 
19 1 46 1 2 51 3 
20 0 72 3 4 了 2 


(2) 表 13.5 给 出 了 山东 省 某 医院 20 名 听力 低下 患者 听力 监测 结果 的 数据 。 试 用 多 元 
Logistic 回归 方法 分 析 听 力 低下 程度 〈 由 轻 到 重 共 3 级 ) 与 年 龄 、 性 别 〈1 代表 男性 ，2 代表 
女性 ) 之 间 的 关系 。 


表 13.5 山东 省 某 医院 20 名 听力 低下 患者 听力 监测 结果 的 数据 


编号 听力 低下 程度 性 别 年 龄 
1 1 1 $5 
4 bp 
3 | 
4 2 
和 
发 
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( 续 表 ) 


编号 听力 低下 程度 性 别 年 龄 


67 
58 
34 
28 
67 
67 
75 
48 
55 
75 
47 
5 
65 
76 


(3) 某 公司 114 位 员工 2012 年 的 绩效 考核 情况 的 相关 信息 如 表 13.6 所 示 。 试 用 有 序 
Logistic 回归 方法 分 析 员 工 绩效 考核 情况 (1 表示 非常 优秀 ，2 表示 基本 可 以 ，3 表示 不 过 关 ) 
与 性 别 (1 代表 男性 ，2 代表 女性 ) 、 级 别 (1 表示 高 级 员工 ，2 表示 中 级 员工 ，3 表示 初级 员 
[) 之 间 的 关系 。 


CE Eo CE EE CE CE Ee Pg ee|=-|=- | 


1 
1 
20 


表 13.6 某 公 司 114 位 员工 绩效 考核 情况 数据 
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前 面 我 们 讲述 的 回归 分 析 方 法 都 要 求 因 变 量 或 连续 或 离散 。 但 是 很 多 时 候 因 变量 观测 样 
本 数据 会 受到 各 种 各 样 的 限制 ， 只 能 观测 到 满足 一 定 条 件 的 样本 。 例 如 ,我 们 在 统计 某 地 区 游 
客 量 时 可 能 仅仅 能 够 统计 到 知名 景点 , 或 者 说 游客 人 数 大 于 某 一 特定 值 的 景点 游客 量 ， 又 例如 
在 统计 工人 的 劳动 时 间 时 , 失业 工人 的 劳动 时 间 一 定 只 取 0, 而 不 论 失 业 的 程度 有 多 大 有 多 深 。 
根据 因 变量 的 受 限 特征 , 常用 的 因 变 量 受 限 回归 分 析 方法 有 两 种 , 包括 断 尾 回归 分 析 和 截取 回 
归 分 析 等 。 下 面 就 以 实例 的 方式 一 一 介绍 这 两 种 方法 在 Stata 中 的 应 用 。 


14.1 实例 一 一 一 断 尾 回归 分 析 


14.1.1” 断 尾 回归 分 析 的 功能 与 意义 

断 尾 回归 分 析 是 针对 因 变 量 只 有 大 于 一 定数 值 或 者 小 于 一 定数 值 时 才能 被 观测 到 的 一 种 
回归 分 析 方 法 。 或 者 说 ， 因 变量 的 取 值 范围 是 受到 限制 的 ， 是 不 可 能 取 到 范围 之 外 的 数值 的 ， 
通过 一 般 的 最 小 二 乘 回归 分 析 得 到 的 结论 是 不 完美 的 。 举 例 来 说 ,如 果 研 究 某 单 位 的 薪酬 情况 ， 
把 年 薪 作 为 因 变 量 , 那么 该 因 变 量 的 取 值 范围 就 是 大 于 0 的 , 低 于 0 是 不 可 能 的 ,是 没有 意义 
的 。 下 面 就 介绍 一 下 断 尾 回归 分 析 在 实例 中 的 具体 应 用 。 


14.1.2 ”相关 数据 来 源 


[一 下 载 资源 :wideovchap14\… 


下 载 资源 :\sample\chap14\ 案 例 14.1.dta 


【 例 14.1] 表 14.1 给 出 了 某 单位 88 名 在 岗 职工 的 工龄 、 职 称 级 别 、 月 工作 时 间 以 及 月 工 
资 收入 情况 。 已 知 该 单位 的 保底 工资 是 3000 元 /月 。 试 构建 回归 分 析 模 型 研究 一 下 该 单位 职工 
的 月 工资 收入 受 工 龄 、 职 称 级 别 〈1 表示 初级 职称 ，2 表示 中 级 职称 ，3 表示 高 级 职称 ) 、 月 
工作 时 间 等 变量 的 影响 情况 。 
表 14.1 某 单位 88 名 在 岗 职工 的 工龄 、 职 称 级 别 、 工 作 时 间 以 及 月 工资 情况 数据 


1 6389 110 和 1 


5327 108 8 1 
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\\N\ \\ 
( 续 表 ) 
编号 月 工资 收入 /元 月 工作 时 间 / 小 时 | 工龄 /年 职称 级 别 
4 8723 1 10 p 4 
5 10213 3 
6 4596 1 
83 8537 
84 8123 2 
85 7565 1 
86 10330 3 
87 7429 pi 
88 7625 2 


14.1.3 ”Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 4 个 变量 ， 分 别 是 月 


工资 收入 、 月 工作 时 间 、 工 龄 以 及 职称 级 别 。 


我 们 把 月 工资 收入 变量 定义 为 salary， 把 月 工作 


时 间 变 量 定义 为 hour， 把 工龄 变量 定义 为 year， 把 职称 级 别 变量 定义 为 grade。 变 量 类 型 及 长 
度 采 取 系统 默认 方式 , 然后 录入 相关 数据 。 相 关 操 作 我 们 在 第 1 章 中 已 有 详细 讲述 。 录 入 完成 
后 数据 如 图 14.1 所 示 。 
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| Date Editor (Edit) - [E14.1.dta] OO 全 
File Edit View Data Tools 
这 日 是 名 总 国 当 了 


salay[l] 6389 


和 
1¢ 
1s 
ae 
部 


了 
a0 


日 


| 医 
[leey Vars: 4 Order: Dataset_ Obs: 88 


| ET 四 ee 
3 3 3 上 
4 ras 35 ae 
日 a 四 
s 了 3 
an 局 


year 
mgrade 


区 Variables 刁 S5Ps6 


Properties 

BVariables 
Name 
Label 
Type 
Format 
Value label 


Notes 


™ epae 


k 


le[Eilename 
Fiter: Off _ Mode: Edit 


Eee) 


salary 


float 
%9.09 


室 便 141 dla 。 工 
NUM 3 


图 14.1 案例 14.1 数据 
先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 骤 如 下 : 
加 进入 Stata 14.0， 打 开 相 关 数 据 文件 ， 弹 出 主 界面 。 
贺 在 主 界面 的 “Command” 文 本 框 中 输入 如 下 命令 。 


elist salary hour year grade: 本 命令 的 含义 是 对 4 个 变量 所 包含 的 样本 数据 进行 一 一 展 
示 ， 以 便 简 单 直观 地 观测 出 数据 的 具体 特征 ， 为 深入 分 析 做 好 必要 准备 。 


变量 受 限 回归 分 析 NAN 
\ \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\VANN\ 
。 reg salary hour year grade: 本 命令 的 含义 是 以 salary 为 因 变 量 ， 以 hour、year、grade 
为 自 变 量 ， 进 行 最 小 二 乘 回 归 分 析 ， 研 究 变 量 之 间 的 因果 影响 关系 。 
etruncreg salary hour year grade,ll(3000): 本 命令 的 含义 是 以 salary 为 因 变 量 ， 以 hour、 
year、grade 为 自 变 量 ， 进 行 断 尾 回归 分 析 ， 研 究 变 量 之 间 的 因果 影响 关系 。 
日 test hour year grade: 本 命令 的 含义 是 对 断 尾 回 归 分 析 估计 的 各 个 自 变量 的 系数 进行 假 
设 检 验 ， 检 验 其 显著 程度 。 
。 predict yhat: 本 命令 的 含义 是 估计 因 变 量 的 拟 合 值 。 
。 predict e,resid: 本 命令 的 含义 是 估计 断 尾 回归 分 析 的 残 差 。 


国 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


14.1.4 结果 分 析 


在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 14.2~ 图 14.7 所 示 的 分 析 结 果 。 
图 14.2 是 对 数据 进行 展示 的 结果 。 它 的 目的 是 通过 对 变量 所 包含 的 样本 数据 进行 一 一 展 
示 ， 以 便 简 单 直观 地 观测 出 数据 的 具体 特征 ， 为 深入 分 析 做 好 必要 准备 。 


lit salary hour year grade 人 

s9. | sme 86 5 1 

0 | asz 120 p11 2 

ps ocd | 2 

2. | 8123 120 10 2 

1 6389 110 9 1||l|e.| ?ss as 。 1 

2. | 5327 108 a 1 lss. | 10330 165 16 3 

3. 4529 88 4 1 ‘65 7429 119 9 至 
4 8723 135 10 2 

5. | 10213 164 15 3|||es.| ves as 。 2 

67.| sse lo 9 1 

6 4596 86 6 1 ll|ss.| sz ao = 1 

7 3386 76 2 1 lss: | se ms 1 

| 本 3 io. | az ls um 2 
9. | ge 134 1 3 

| es 3 | 1023 lee 15 3 

72. | see 86 6 1 

1. | se 9 7 | | 4 

| 2 |‖| | | se as 3 
13. | 5173 -90 7 1 

14. | 4286 85 5 1 | 923 ao um 3 

15. | 4876 86 5 :| | se ss 7 2 

ra.| some 95 7 2 

16. | asz 120 p11 zl | ss oo0 ， 1 

17. | as 135 11 2|||so.| s286 m 5 1 
18. | 8123 120 10 2 

19. | 7565 113 9 1||la.| se ma 5s 1 

20. | i0330 165 16 3|||sz. | asz lz 1 

83. | 8537 135 11 2 

ea | 七 本 zl | 8123 le nm 2 

22. | 7625 。 123 9 le | Te WH 
23. | e389 110 9 1 

| se ee i 

25. | 4529 88 4 | | 2|||ss. | ss ss ， 2 
5 | 3 0 2? 1 


图 14.2 ”对 数据 进行 展示 


在 如 图 14.2 所 示 的 分 析 结 果 中 可 以 看 出 ,数据 的 总 体质 量 还 是 可 以 的 ， 没有 极端 异常 值 ， 
变量 间 的 量 纲 差距 也 是 可 以 接受 的 ， 可 以 进入 下 一 步 的 分 析 。 

图 14.3 是 以 salary 为 因 变量 ， 以 hour、year、grade 为 自 变量 ， 进 行 最 小 二 乘 回归 分 析 的 
结果 。 
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reg salary hour year grade 
Source ss dr ns Number of obs = 88 

Fl 3, 84) = 430.16 

Nodel 371452125 3 123817375 Prob > 了 = 0.0000 
Residual | 24178631.5 。 84 287840.851 R-squared = 0.9389 

Mdj R-squared = 0.9367 

| Tocal | 395630756 87 4547479.96 Root NSE = 536.51 
| sry Coef. sed. Err, t Pltl [95s Conf, Interval] 
hour 51.93677 9.024075 5.76 0.000 33.9914 69.88213 

year 120.8774 59.99078 2.01 0.047 1.57913 。 240.1756 

grade 572.1885 135.5076 4.22 0.000 302.7168 841.6602 

_cons | -1006.138 491.17 -2.05 0.044 -1982.884 -29.393 


14.3 ”最 小 二 乘 回归 分 析 


从 上 述 分 析 结 果 中 可 以 看 出 共有 88 个 样本 参与 了 分 析 ， 模 型 的 F 值 (3, 84) = 430.16, P 值 
(Prob > F) =0.0000， 说 明 模型 整体 上 是 很 显著 的 。 模 型 的 可 决 系数 (R-squared) 为 0.9389， 
模型 修正 的 可 决 系数 (Adj R-squared) 为 0.9367， 说 明 模 型 的 解释 能 力也 是 非常 好 的 。 

变量 hour 的 系数 标准 误 是 9.024075, t 值 为 5.76, P 值 为 0.000， 系 数 是 非常 显著 的 ，95% 
的 置信 区 间 为 [33.9914, 69.88213]。 变 量 year 的 系数 标准 误 是 59.99078,t 值 为 2.01,P 值 为 0.047， 
系数 是 比较 显著 的 ，95% 的 置信 区 间 为 [1.57913，240.1756]。 变 量 grade 的 系数 标准 误 是 
135.5076,t 值 为 4.22,P 值 为 0.000, 系数 是 非常 显著 的 ,95% 的 置信 区 间 为 [302.7168,841.6602]。 
常数 项 的 系数 标准 误 是 491.17,t 值 为 -2.05, P 值 为 0.044， 系 数 也 是 比较 显著 的 ，95% 的 置信 
区 间 为 [-1982.884, -29.393]。 

从 上 述 分 析 结果 可 以 得 到 最 小 二 乘 模型 的 回归 方程 : 


salary=51.93677*hour+120.8774*year+572.1885*grade-1006.138 


从 上 面 的 分 析 可 以 看 出 最 小 二 乘 线性 模型 的 整体 显著 性 、 系 数 显 著 性 以 及 模型 的 整体 解 
释 能 力 都 很 不 错 。 结 论 是 该 单位 工人 的 月 工资 都 是 与 月 工作 时 间 、 工 龄 、 职 称 级 别 等 呈 显 著 正 
向 变化 的 。 

图 14.4 是 以 salary 为 因 变 量 ， 以 hour、year、grade 为 自 变量 ， 进 行 断 尾 回 归 分 析 的 结果 。 
其 中 断 尾 点 设置 的 是 3000。 

从 图 14.4 可 以 看 出 断 尾 回归 分 析 模 型 相对 于 最 小 二 乘 回归 模型 得 到 了 很 大 程度 的 改进 。 
模型 中 各 个 变量 系数 的 显著 程度 也 有 不 同 程度 的 提高 ， 限 于 篇 幅 不 再 袭 述 。 

图 14.5 是 对 断 尾 回 归 分 析 估计 的 各 个 自 变 量 的 系数 进行 假设 检验 的 结果 。 
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Stata 因 变量 受 限 回归 分 析 
WO 


， 


。 truncreg salary hour year grade,11(3000) 
(nore: 0 obs. truncated) 


Fitting full model: 
Iteration 0: log likelihood = -675.57114 
Iteration 1: log likelihood = -675.52962 
Iteration 2: log likelihood = -675.52953 


Iteration 3: log likelihood = -675.52953 


Truncated regression 


Limit; lower = 3000 Number of obs = 88 
upper = +inf Vald chi2(3) =1294.11 
Log likelihood = -675.52953 Prob > chi2 = 0.0000 
salary Coef. Std. Err. z Pp>lzl [95% Conf. Interval] 
hour 51.17762 。 8.973677 5.70 0.000 33.58954 68.7657 
year 129.2596 60.534 2.14 0.033 10.61518 。 247.9041 ,test hour year grode 
grade 569.4026 133.5357 4.26 0.000 307.6774 831.1278 i 
四 本 x e 2 [eathour ~ 
_cons 991.5073 。 484.7357 2.05 0.041 1941.572 -41.44262 ed 
(3) [eggrado - 0 
/sigma 528.295 40.62363 13.00 0.000 448.6741 607.9158 
chi2( 3) = 129 


a 1 
becb > shi2 = 0,0000 


图 14.4 断 尾 回归 分 析 图 14.5 进行 假设 检验 


从 图 14.5 可 以 看 出 该 模型 非常 显著 ， 拟 合 很 好 。 
图 14.6 是 对 因 变量 的 拟 合 值 的 预测 。 
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图 14.6 因 变 量 的 拟 合 值 预测 


关于 因 变 量 预 测 拟 合 值 的 意义 我 们 在 前 面 章节 中 已 经 论述 过 ， 此 处 旨 在 说 明 断 尾 回归 也 
是 可 以 进行 预测 拟 合 因 变量 值 的 ， 细 节 之 处 限于 篇 幅 不 再 重复 讲解 。 
图 14.7 是 断 尾 回归 分 析 得 到 的 残 差 序列 。 
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图 14.7 残 关 序 列 
14.1.5 “案例 延伸 
上 述 的 Stata 命令 比较 简洁 ， 分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 
延伸 :使 用 稳健 标准 差 进行 断 尾 回归 分 析 
与 前 面 章节 讲述 的 最 小 二 乘 回归 分 析 类 似 ， 我 们 在 断 尾 回归 分 析 中 也 可 以 使 用 稳健 的 标 


准 差 , 以 克服 可 能 会 有 的 异 方差 的 存在 对 模型 的 整体 有 效 性 带 来 的 不 利 影响 。 以 本 节 中 提 到 的 
案例 为 例 ， 操 作 命令 就 是 : 


truncreg salary hour year grade,11(3000) robust 
在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 14.8 所 示 。 


year grade,11(3000) robust 


Fobust 


图 14.8 分 析 结 果 图 


从 上 面 的 分 析 结 果 中 可 以 看 出 模型 中 各 变量 的 系数 显著 性 较 没有 使 用 稳健 标准 差 进 行 断 
尾 回归 分 析 时 有 了 进一步 的 提高 ， 模 型 更 加 完美 。 
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14.2 ”实例 二 一 一 截取 回归 分 析 


14.2.1 截取 回归 分 析 的 功能 与 意义 


截取 回归 分 析 是 针对 当 因 变 量 大 于 一 定数 值 或 者 小 于 一 定数 值 时 仅 能 有 一 种 取 值 时 的 回 
归 分 析 方 法 。 或 者 说 ， 因 变量 的 取 值 范围 是 受到 限制 的 ， 当 因 变 量 大 于 一 定 值 时 ， 以 后 不 管 程 
度 如 何 ， 统 统 被 记录 为 某 一 特定 值 。 在 这 种 情况 下 , 通过 一 般 的 最 小 二 乘 回 归 分 析 得 到 的 结论 
是 不 完美 的 。 举 例 来 说 ， 如 果 研 究 某 单位 的 薪酬 情况 ， 该 单位 采取 封顶 薪酬 方式 ， 把 年 薪 作 为 
因 变 量 , 那么 该 因 变量 的 取 值 范围 就 低 于 一 定 值 。 下 面 就 介绍 一 下 截取 回归 分 析 在 实例 中 的 具 
体 应 用 。 


14.2.2 ”相关 数据 来 源 


下 载 资源 :\video\chap14\… 


下 载 资源 :\sample\chap14\ 案 例 14.2.dta 


【 例 14.2】 表 14.2 给 出 了 某 单位 78 名 在 岗 职 工 的 工龄 、 职 称 级 别 、 月 工作 时 间 以 及 月 工 
资 情况 。 已 知 该 单位 的 封顶 工资 是 11000 元 /月 。 试 构建 回归 分 析 模型 研究 一 下 该 单位 职工 的 
月 工资 受 工 龄 、 职 称 级 别 〈1 表示 初级 职称 ，2 表示 中 级 职称 ，3 表示 高 级 职称 ) 、 月 工作 时 
间 等 变量 的 影响 情况 。 


表 14.2 菜单 位 78 名 在 岗 职 工 的 工龄 、 职 称 级 别 、 月 工作 时 间 以 及 月 工资 情况 数据 


14.2.3 Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 4 个 变量 ， 分 别 是 月 
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时 间 变 量 定义 为 hour， 把 工龄 变量 定义 为 year， 把 职称 级 别 变量 定义 为 grade。 变 量 类 型 及 长 
度 采取 系统 默认 方式 , 然后 录入 相关 数据 。 相 关 操 作 在 第 1 章 中 已 有 详细 讲述 。 录 入 完成 后 数 
据 如 图 14.9 所 示 。 


Stata 统 计 分 析 与 行业 应 用 


Da Editor (Edid - F142] OO 


~ Variables 日 


| | Filter variables here 
习 四 Name Label 


salary 


Wgrade 


Label | 


Type float 
%9.0g 
Da ”Dam 
» 加 Eilename Md da 
Ready Vars 4 Order Dataset Obs: 78 Filter Off Mode:Edit CAP NUM | 


图 14.9 案例 14.2 数据 
先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 又 如 下 : 


加 进入 Stata 14.0， 打 开 相 关 数 据 文 件 ， 弹 出 主 界面 。 
在 主 界面 的 “Command” 文 本 框 中 输入 如 下 命令 。 


。 “list salary hour year grade: 本 命令 的 含义 是 对 4 个 变量 所 包含 的 样本 数据 进行 一 一 展 
示 ， 以 便 简 单 直观 地 观测 出 数据 的 具体 特征 ， 为 深入 分 析 做 好 必要 准备 。 

。 reg salary hour year grade: 本 命令 的 含义 是 以 salary 为 因 变 量 ， 以 hour、year、grade 
为 自 变量 ， 进 行 最 小 二 乘 回 归 分 析 ， 研 究 变量 之 间 的 因果 影响 关系 。 

etobit salary hour year grade,ul(11000): 本 命令 的 含义 是 以 salary 为 因 变 量 , 以 hour、year、 
grade 为 自 变量 ， 进 行 断 尾 回归 分 析 ， 研 究 变量 之 间 的 因果 影响 关系 。 

日 test hour year grade: 本 命令 的 含义 是 对 断 尾 回归 分 析 估 计 的 各 个 自 变量 的 系数 进行 假 
设 检验 ， 检 验 其 显著 程度 。 

。 ”predict yhat: 本 命令 的 含义 是 估计 因 变 量 的 拟 合 值 。 


园 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


14.2.4 结果 分 析 


在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 14.10~ 图 14.14 所 示 的 分 析 结 果 。 
图 14.10 是 对 数据 进行 展示 的 结果 。 它 的 目的 是 通过 对 变量 所 包含 的 样本 数据 进行 一 一 展 
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7565 113 9 . 
11000 165 16 3 
7429 119 9 2 
7625 123 9 2 
6389 110 9 1 
5327 108 8 
4529 88 4 条 
8723 。 135 10 E 
11000 164 15 3 
4596 86 6 1 
3386 76 要 1 
4289 84 3 1 
11000 159 11 3 
9213 。 130 10 3 
5476 94 了 2 
5276 95 了 光 
5173 90 于 
4286 85 5 
4876 86 5 1 
8432 120 11 要 
8537 。 135 11 Ey 


对 数据 进行 展示 
从 图 14.10 所 示 的 分 析 结 果 中 可 以 看 出 ， 数 据 的 总 体质 量 还 是 可 以 的 ， 没 有 极端 异常 值 ， 
变量 间 的 量 纲 差距 也 是 可 以 接受 的 ， 可 以 进入 下 一 步 的 分 析 。 


目 卜 s 电 访 县 ”站 生 = - , 
图 14.11 是 以 salary 为 因 变 量 ， 以 hour、year、grade 为 自 变 量 ， 进 行 最 小 二 乘 回 归 分 析 的 
结果 。 
a a 

Source SS dr nS Numiber of oba = 78 

了 ( 3, 74) = 575.78 

nodel | souis911 3 134705304 prop >r -~ 0.0000 

Residual | 17312650.2 。 74 233954.732 Rsquared = =- 0.9589 

Adj R-squared = 0.9573 

Tocal 421428561 77 5473098.19 Root HSE = 483.69 

walary Coef, Std. Err. t p>ltl [95% Conf. Interval] 

hour | 53.02997 7.845277 6.76 0.000 37.39791 68.66203 

year | 182.4601 52.15133 = 3.50 0.001 78.54635 286.3739 

arade | 554.3572 131.2952 4.22 0.000 292.7458 815.9686 

Scons | -1582.902 424.996 -3.72 0.000 。 -2429.725 -736.0785 


图 14.11 最 小 二 乘 回归 分 析 


从 上 述 分 析 结 果 中 可 以 看 出 共有 78 个 样本 参与 了 分 析 , 模型 的 F 值 (3, 74)= 575.78, P 值 

(Prob >F) = 0.0000， 说 明 模 型 整体 上 是 很 显著 的 。 模 型 的 可 决 系数 (R-squared) 为 0.9589， 
模型 修正 的 可 决 系数 (Adj R-squared) 为 0.9573， 说 明 模型 的 解释 能 力也 是 非常 好 的 。 

变量 hour 的 系数 标准 误 是 7.845277, t 值 为 6.76, P 值 为 0.000， 系数 是 非常 显著 的 ，95% 

的 置信 区 间 为 [37.39791，68.66203]。 变 量 year 的 系数 标准 误 是 52.15133,t 值 为 3.50, P 值 为 
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0.001， 系 数 是 非常 显著 的 ，95% 的 置信 区 间 为 [78.54635, 286.3739]。 变 量 grade 的 系数 标准 误 
是 131.2952, t 值 为 4.22，P 值 为 0.000， 系 数 是 非常 显著 的 ，95% 的 置信 区 间 为 [292.7458， 
815.9686]。 常 数 项 的 系数 标准 误 是 424.996, t 值 为 -3.72, P 值 为 0.000， 系 数 也 是 比较 显著 的 ， 
95% 的 置信 区 间 为 [-2429.725, -736.0785]。 

从 上 述 分 析 结 果 可 以 得 到 最 小 二 乘 模型 的 回归 方程 是 : 

salary= 53.02997 *hour+ 182.4601 *year+ 554.3572 *grade -1582.902 

从 上 面 的 分 析 可 以 看 出 最 小 二 乘 线性 模型 的 整体 显著 性 、 系 数 显 著 性 以 及 模型 的 整体 解 
释 能 力 都 很 不 错 。 我 们 得 到 的 结论 是 该 单位 工人 的 月 工资 是 与 其 月 工作 时 间 、 工龄 、 职 称 级 别 
等 呈 显 著 正 向 变化 的 。 

图 14.12 是 以 salary 为 因 变量 , 以 hour、year、grade 为 自 变 量 , 进行 截取 回归 分 析 的 结果 。 
其 中 ， 截 取 上 限 设 置 的 是 11000。 


+ tobit salary hour year grade,ul(11000) 
Tobit regression Number of obs = 78 
LR chi2 (3) = 269.28 
Prob > chi2 = 0.0000 
Log likelihood = -531.46024 Pseudo R2 = 0.2021 
salary Coef. Std. Err. te PF>Itl [95% Conf. Interval] 
hour 58.72234 。 7.167127 8.19 0.000 44.44469 72.99999 
year 207.5801 47.64429 4.36 0.000 112.6678 。 302.4924 
grade 525.3432 115.7347 4.54 0.000 294.7878 755.8987 
_cons | -2272.016 404.3246 -5.62 0.000 -3077.472 -1466.56 
/sigma 425.8502 。 35.61834 354.8948 。 496.8056 
Obs. swummary: 0 left-censored observations 
71 uncensored observations 
7 right-censored observations ac salary>=11000 


14.12 ”截取 回归 分 析 结 果 图 
从 图 14.12 可 以 看 出 截取 回归 分 析 模 型 相对 于 最 小 二 乘 回归 模型 得 到 了 很 大 程度 的 改进 。 
模型 中 各 个 变量 系数 的 显著 程度 也 有 不 同 程度 的 提高 ， 限 于 篇 幅 不 再 獒 述 。 
图 14.13 是 对 截取 回归 分 析 估 计 的 各 个 自 变量 的 系数 进行 假设 检验 的 结果 。 


。 test hour year grade 


(1 tmodelJhour = 0 
(2) [modelJyear = 0 


(3) [model]grade = 0 


rt 3 75) = 535.57 
Prob > F = 0.0000 


图 14.13 进行 假设 检验 


从 图 14.13 可 以 看 出 该 模型 非常 显著 ， 拟 合 很 好 。 
图 14.14 是 对 因 变 量 的 拟 合 值 的 预测 。 
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图 14.14 查看 数据 
关于 因 变 量 预测 拟 合 值 的 意义 在 前 面 章节 已 经 论述 了 ， 此 处 旨 在 说 明 截 取 回 归 也 是 可 以 
进行 预测 拟 合 因 变量 值 的 ， 细 节 之 处 限于 篇 幅 不 再 重复 讲解 。 
14.2.5 ”案例 延伸 


上 述 的 Stata 命令 比较 简洁 ， 分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 

1. 延伸 1: 使 用 稳健 标准 差 进行 截取 回归 分 析 

与 前 面 章节 讲述 的 最 小 二 乘 回归 分 析 类 似 ， 在 截取 回归 分 析 中 也 可 以 使 用 稳健 的 标准 差 ， 
以 克服 可 能 会 有 的 异 方差 的 存在 对 模型 的 整体 有 效 性 带 来 的 不 利 影响 ,以 本 节 中 提 到 的 案例 为 
例 ， 操 作 命 令 就 是 : 

tobit salary hour year grade,ul(11000) robust 

在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 14.15 所 示 。 


tobit salary hour year grade,ul(11000) robust 


Tobit reqression 


Log pseudolikelihood = -531.46024 


salary | cocs. Er Pl 95% Conf. Interval] 


aour | 58.72234 6.686075 8.16 0.000 45.40299 72.04168 


Year | 207.5801 45.05987 4.61 0.000 117.8162 297.344 
grade | 525.3432 139.3285 3.77 0.000 247.7865 802.8998 
ons | -2272 016 331 .9853 -6.94 0.000 -2933.365 -1610.667 


| am | ss ae 350.8492 500.8513 
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取 回 归 分 析 时 有 了 进一步 的 提高 ， 模 型 更 加 完美 。 


2. 延伸 2: 设置 下 限 进行 截取 回归 分 析 


与 设置 上 限 类 似 ， 也 可 以 设置 截取 回归 的 下 限 进 行 分 析 。 以 本 节 中 提 到 的 案例 为 例 ， 如 


果 设 置 保底 工资 为 3000， 而 不 设置 封顶 工资 ， 那 么 操作 命令 就 是 : 
tobit salary hour year grade,11(3000) 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 14.16 所 示 。 


， tobit salary hour year qrade,11(3000) 


|robie regression Nuber of obs = 78 
LR chi2 (3) 236.73 

Prob > chi2 0.0000 

Log likelihood = -568.55468 Pseudo R2 0.1723 
salary Coef. Std. Err. t Eltl [95% Conz, Interval] 

hour 51.33354 8.021606 6.40 0.000 33.39329 67,3130 

vear | 200.7987 53.76625 3.73 0.000 93.69078 。 307.9065 

grade | 552.1327 。 133.658 4.13 0.000 285.8723 818.3932 

cons | -1553.493 432.7089 -3.59 0.001 -2415.493 -691,4923 
/aigma | 492.2025 41.01325 410.5 573,9051 


Cpa. summary: 


器 
74 


letr-censored observations et salary<=3000 


rod obaervations 


0 right-censored observations 


图 14.16 设置 下 限 进行 截取 回归 分 析 


模型 结果 的 解读 方式 与 前 面 所 述 类 似 ， 此 处 限于 篇 幅 不 再 獒 述 。 
3. 延伸 3: 同时 设置 上 限 和 下 限 进行 截取 回归 分 析 


以 本 节 中 提 到 的 案例 为 例 ， 如 果 设 置 保底 工资 为 3000， 同 时 设置 封顶 工资 为 11000， 那 


么 操作 命令 就 是 : 


tobit salary hour year grade,11(3000) ul(11000) 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 14.17 所 示 。 


tehit salary hour year grade,11(3000) ul(11000) 


[obit cegression Numper of obs = 18 
LR ebi2(3) 256.61 

Prob > ehi2 0-0000 

ios likelihood = -508.94234 Paeuco Rz2 0.2013 
lary Coef. scd Err. pl [ess Cont. Interval] 

hour | 37.14919 7.317136 7.60 0.000 42.17023 。 72.12013 

ear | 228.6658 50.69766 4.51 0.000 127.6709 329.6607 

orade | 520.8632 121.0532 4.30 0.000 279.7128 。 762.0137 

cons | -2270.666 422.2223 -5.38 0.000 -3111.776 -1429.556 

/sigma | 445.1417 38.79441 367.8593 522.4241 


模型 结果 的 解读 方式 与 前 面 所 述 类 似 ， 此 处 限于 篇 幅 不 再 歼 述 。 
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14.3 ”本 章 习 题 


(1) 表 14.3 给 出 了 某 医院 70 名 在 岗 医 生 的 从 业 年 限 、 职 称 、 诊 疗 人 数 以 及 满意 度 得 分 
情况 。 已 知 所 有 医生 的 保底 得 分 是 30 分 。 试 构建 回归 分 析 模 型 研究 一 下 该 单位 医生 的 满意 度 
得 分 受 从 业 年 限 、 职 称 级 别 〈1 表示 初级 职称 ，2 表示 中 级 职称 ，3 表示 高 级 职称 ) 、 诊 疗 人 
数 等 变量 的 影响 情况 。 


表 14.3 某 单位 70 名 在 岗 医 生 的 从 业 年 限 、 职 称 级 别 、 诊 疗 人 数 以 及 满意 度 得 分 情况 数据 


编号 满意 度 得 分 诊疗 人 数 从 业 年 限 职称 级 别 
1 54.76 94 2 
4 52.76 95 2 
3 51.73 学 1 
4 42.86 85 :i 1 
48.76 86 二 1 
6 84.32 120 11 全 
65 98.21 11 3 
66 92.13 10 3 
67 54.76 lI%4 |’ 2 
68 52.76 7 2 
69 51.73 /99 | 1 
70 42.86 5 1 
(2) 表 14.4 给 出 了 某 地 区 60 个 旅游 景点 的 游客 量 、 投 资金 额 、 建 成 年 限 以 及 国家 评级 


情况 。 已 知 该 地 区 各 景点 的 封顶 接待 量 是 11000 人 /次 。 试 构建 回归 分 析 模型 研究 一 下 该 地 区 
60 个 旅游 景点 的 游客 量 受 投资 金额 、 建 成 年 限 以 及 国家 评级 情况 (1 表示 AA 级 , 2 表示 AAA 
级 ，3 表示 AAAA 级 ) 等 变量 的 影响 情况 。 


表 14.4 某 地 区 60 个 旅游 景点 的 游客 量 、 投 资金 额 、 建 成 年 限 以 及 国家 评级 情况 数据 


编号 游客 量 /人 /次 国家 评级 情况 
1 5276 95 人 入 
下 Si73 90 渤 1 
3 4286 5 1 
4 4876 和 1 
3 8432 11 二 
6 8537 11 二 
$5 7625 9 2 
$56 6389 9 1 
$7 5327 8 1 
58 4529 88 4 1 
59 8723 135 10 六 
60 11000 164 15 及 
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第 15 章 Stata 时 间 序 列 分 析 


时 间 序 列 分 析 是 一 种 动态 数据 处 理 的 统计 方法 。 该 方法 基于 随机 过 程 理论 和 数理 统计 学 
方法 , 研究 随机 数据 序列 所 遵从 的 统计 规律 , 以 此 来 解决 实际 问题 。 时 间 序 列 是 随时 间 而 变化 、 
有 具 有 动态 性 和 随机 性 的 数字 序列 .在 现实 生活 中 ,许多 统计 资料 都 是 按照 时 间 进 行 观测 记录 的 ， 
因此 时 间 序 列 分 析 在 实际 分 析 中 具有 广泛 的 应 用 。 

时 间 序 列 模型 不 同 于 一 般 的 经 济 计量 模型 ， 其 不 以 经 济 理论 为 依据 ， 而 是 依据 变量 自身 的 变 
化 规律 ， 利 用 外 推 机 制 描述 时 间 序 列 的 变化 。 时 间 序 列 模型 在 处 理 的 过 程 中 必须 明确 考虑 时 间 序 
列 的 非 平 稳 性 。 本 章 我 们 就 来 对 Stata 中 提供 的 时 间 序 列 分 析 功 能 进行 一 系列 的 实例 分 析 。 


15.1 “时间 序列 分 析 的 基本 操作 


15.1.1 时 间 序 列 分 析 的 基本 操作 概述 


在 进行 时 间 序 列 分 析 前 ， 我 们 往往 需要 对 数据 进行 预 处 理 。 首 先 要 分 析 的 是 该 数据 是 否 
适合 用 时 间 序 列 分 析 , 这 往往 需要 我 们 提前 对 数据 进行 简单 回归 , 然后 再 进行 时 间 序列 分 析 的 
基本 操作 ， 包 括 定义 时 间 序列 、 绘 制 时 间 序 列 趋 势 图 等 。 对 于 一 个 带 有 日 期 变量 的 数据 文件 ， 
Stata 14.0 并 不 会 自动 识别 并 判定 出 该 数据 是 否 是 时 间 序列 数据 ， 尤 其 是 数据 含有 多 个 日 期 变 
量 的 情形 ， 所 以 要 选取 出 恰当 的 日 期 变量 , 然后 定义 时 间 序 列 。 而 绘制 时 间 序 列 趋势 图 的 意义 
是 不 言 而 喻 的 , 通过 该 步 操作 我 们 可 以 迅速 看 出 数据 的 变化 特征 , 为 后 续 更 加 精确 地 判断 或 者 
选择 合适 的 模型 做 好 必要 准备 。 


15.1.2 ”相关 数据 来 源 


B= 下 载 资源 :\ideo\chap15\… 


国 | 下载 资源 samplechapls 案 例 15da 


【 例 15.1】 农 村 家 庭 联 产 承包 责任 制 的 推行 ， 以 及 城市 化 进程 的 加 快 ， 使 得 我 国 大 批 劳 
动力 从 农村 解放 出 来 ,向 当地 乡镇 企业 和 城市 转移 。 农 村 劳动 力 的 大 批 转移 ， 有效 改善 了 我 国 
劳动 力 的 整体 利用 状况 , 提高 了 人 力 资源 的 市 场 配 置 效 率 , 对 农村 经 济 乃至 整个 国民 经 济 的 发 
展 都 起 到 了 非常 大 的 推动 作用 。 那 么 影响 农村 劳动 力 转移 的 因素 有 哪些 呢 ? 某 课 题 组 对 该 问题 
进行 了 实证 研究 。 该 课题 组 选择 的 具有 代表 性 的 变量 和 数据 如 表 15.1 所 示 。 试 将 数据 整理 成 
Stata 数据 文件 ， 并 进行 简要 分 析 。 


表 15.1 农村 人 口 城乡 转移 规模 年 度数 据 及 相关 变量 数据 


\\ AAA 
第 15 章 Stata 时 间 序列 分 析 


年 份 ”| 城乡 人 口 净 转 移 /万 人 城镇 失业 规模 /万 人 城乡 收入 差距 制度 因素 
1978 530 57 1 
1979 | 1101.69 567.6 1.53 2 
1980 | 484.28 541.5 5 3 
1981 | 814.63 4 
1982 | 1055.05 5 
1983 | 571.68 6 
2001 | 1832.07 24 
2002 | 1814.92 25 
2003 | 1821.55 26 
2004 | 1779.12 27 
2005 | 1785.18 28 


15.1.3 ”Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 5 个 变量 ,分别 为 年 
份 、 城 乡 人 口 净 转移 、 城镇 失业 规模 、 城乡 收入 差距 和 制度 因素 .我们 把 年 份 变量 设 定 为 year， 
把 城乡 人 口 净 转移 变量 设 定 为 m， 把 城镇 失业 规模 变量 设 定 为 s， 把 城乡 收入 差距 变量 设 定 为 
g， 把 制度 因素 变量 设 定 为 t， 变 量 类 型 及 长 度 采取 系统 默认 方式 ， 然 后 录入 相关 数据 。 相 关 
操作 在 第 1 章 中 已 有 详细 讲述 。 录 入 完成 后 数据 如 图 15.1 所 示 。 


口 Data Editor (Edit) - [案例 15.dta] 9 吓 


| 一 /加 司 


iFile Edit View Data 


Tools 


A Fikter variables here 

2 

> 回 Name Label 

year 

5 司 mm 

§ ms 

7 zg 

mt 

s 

了 区 Variables [ 画 SH6PS6 司 

PE 

3 Properties + 
io aa 加 日 variables “ 
ia ea aa 24 1 Name year | 
Is 32 e933 53.3 二 is Label 
16 i193 696 01 i8 16 Type 
27 i994 em.54 476.4 工本 也 ER %8.0g 2 
这 1195 620.6 1 18 ee 
19 i936 i819 ss2.8 i 3 

Notes 
20 i197 aaas See 1 20 
BData 
7 mm pe 一 一 志 
Ready Vars:5 Order: Dataset Obs:28 Filter: Off Mode: Edit NUM a 


^ lVariables 


图 15.1 案例 15.1 数据 
先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 骤 如 下 : 


297 


统计 分 析 与 行业 应 用 案例 详解 (第 2 版 ) 
\\\\\\\\\ANANAN\ \\ \ \\\N\ 


AN 
Stata: 


进入 Stata 14.0， 打 开 相关 数据 文件 ， 弹 出 主 界面 。 
加 在 主 界面 的 “Command” 文 本 框 中 分 别 输入 如 下 命令 并 按键 盘 上 的 回 车 键 进 行 确认 。 


eregressm sgft 本 命令 的 含义 是 不 考虑 数据 的 时 间 序 列 性 质 ， 直 接 以 城乡 人 口 净 转 移 
变量 为 因 变 量 ， 以 城镇 失业 规模 、 城 乡 收 入 差距 、 制 度 因素 为 自 变 量 ， 对 数据 进行 多 
重 线性 回归 。 

日 tsset year: 本 命令 的 含义 是 把 年 份 作为 日 期 变量 对 数据 进行 时 间 序 列 定义 。 

。 twoway(line m year): 本 命令 的 含义 是 绘制 时 间 序 列 趋 势 图 来 描述 变量 城乡 人 口 净 转 
移 随时 间 的 变动 趋势 。 

。 twoway(line s year): 本 命令 的 含义 是 绘制 时 间 序 列 趋 势 图 来 描述 变量 城镇 失业 规模 随 
时 间 的 变动 趋势 。 

。 ”twoway(line g year): 本 命令 的 含义 是 绘制 时 间 序 列 趋势 图 来 描述 变量 城乡 收入 差距 随 
时 间 的 变动 趋势 。 

e twoway(line t year): 本 命令 的 含义 是 绘制 时 间 序 列 趋势 图 来 描述 变量 制度 因素 随时 间 
的 变动 趋势 。 

。 ”twoway(line d.m year): 本 命令 的 含义 是 绘制 时 间 序 列 趋 势 图 来 描述 变量 城乡 人 口 净 转 
移 的 一 阶 差分 随时 间 的 变动 趋势 。 

。 twoway(line d.s year): 本 命令 的 含义 是 绘制 时 间 序 列 趋势 图 来 描述 变量 城镇 失业 规模 
的 一 阶 差分 随时 间 的 变动 趋势 。 

。 ”twoway(line d.g year): 本 命令 的 含义 是 绘制 时 间 序 列 趋 势 图 来 描述 变量 城乡 收入 差距 
的 一 阶 差分 随时 间 的 变动 趋势 。 

。 twoway(line d.t year): 本 命令 的 含义 是 绘制 时 间 序 列 趋 势 图 来 描述 变量 制度 因素 的 一 
阶 差分 随时 间 的 变动 趋势 。 


设置 完毕 后 ， 等 待 输出 结果 。 


15.1.4 结果 分 析 


在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 15.2~ 图 15.11 所 示 的 分 析 结果 。 
分 析 结果 1 是 不 考虑 数据 的 时 间 序 列 性 质 ， 直 接 对 数据 进行 简单 回归 的 结果 。 


eoress madt 


5572311.60 3 1057437.23 
2441241.24 23 106140.923 


B013552.92 。 26 308213.574 


Cosf. Std. Err. 


3.498603 .8786972 3.98 
口 | -1408.282 422.5061 -3.33 


.3141 13.75179 3.44 
850.7036 272.2516 -3.12 


图 15.2 分 析 结 果 1 
从 上 述 分 析 结果 中 可 以 看 出 共有 27 个 样本 参与 了 分 析 ， 模 型 的 F 值 (3, 23) = 17.50，P 值 
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\ 
\ 
上 
人 
(Prob > F) = 0.0000, 说 明 模型 整体 上 是 非常 显著 的 。 模型 的 可 决 系数 (R-squared) 为 0.6954， 
模型 修正 的 可 决 系数 (Adj R-squared) 为 0.6556， 说 明 模 型 的 解释 能 力 还 是 差强人意 的 。 


模型 的 回归 方程 是 : 
m=3.498603* s -1408.282*g+47.3141*t+850.7036 


变量 s 的 系数 标准 误 是 0.8786972，t 值 为 3.98，P 值 为 0.001， 系 数 是 非常 显著 的 ，95% 
的 置信 区 间 为 [1.680879,5.316327]。 变 量 g 的 系数 标准 误 是 422.5061,t 值 为 -3.33,P 值 为 0.003， 
系数 也 是 非常 显著 的 ，95% 的 置信 区 间 为 [-2282.303，-534.2617]。 变 量 t 的 系数 标准 误 是 
13.75179，t 值 为 3.44，P 值 为 0.002， 系 数 也 是 非常 显著 的 ，95% 的 置信 区 间 为 [18.86635， 
75.76185]。 常数 项 的 系数 标准 误 是 272.2616, t 值 为 3.12, P 值 为 0.005, 系数 也 是 非常 显著 的 ， 
95% 的 置信 区 间 为 [287.4877 , 1413.92]。 

从 上 面 的 分 析 可 以 看 出 简单 回归 的 模型 在 一 定 程度 上 是 可 以 接受 的 ， 但 也 存在 提升 改进 
的 空间 。 本 模型 得 到 的 基本 结论 是 城乡 人 口 转移 规模 (my) i ei (g) 的 扩 
大 而 扩大 ; 城镇 失业 规模 (s) 对 农村 劳动 力 转移 具有 阻碍 作用 ; 制度 因素 〈t) 对 农村 劳动 力 
转移 的 制约 作用 逐渐 下 降 。 

分 析 结果 2 显示 的 是 我 们 把 年 份 作为 日 期 变量 对 数据 进行 时 间 定 义 的 结果 ， 如 图 15.3 所 示 。 


time variable: year, 1978 to 2005 
delta: 1 unit 


图 15.3 分 析 结 果 2 
从 上 述 分 析 结 果 中 可 以 看 到 时 间 变 量 是 年 份 (year) ， 区 间 范 围 是 从 1978 年 到 2005 年 ， 
间距 为 1。 
分 析 结 果 3 显示 的 是 变量 城乡 人 口 净 转 移 随时 间 的 变动 趋势 ， 如 图 15.4 所 示 。 
中 
8 
8 
吕 
图 15.4 分 析 结果 3 


从 上 述 分 析 结 果 中 可 以 看 到 变量 城乡 人 口 净 转移 没有 明显 、 稳 定 的 长 期 变化 方向 。 
分 析 结 果 4 显示 的 是 变量 城镇 失业 规模 随时 间 的 变动 趋势 ， 如 图 15.5 所 示 。 
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、 


图 15.5 分 析 结 果 4 


从 上 述 分 析 结 果 中 可 以 看 到 变量 城镇 失业 规模 具有 明显 、 稳 定 的 向 上 增长 趋势 。 
分 析 结 果 5 显示 的 是 变量 城乡 收入 差距 随时 间 的 变动 趋势 ， 如 图 15.6 所 示 。 
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1980 1985 1990 1995 2000 2005 
year 


图 15.6 分 析 结 果 5 


从 上 述 分 析 结 果 中 可 以 看 到 变量 城乡 收入 差距 具有 明显 、 稳 定 的 向 上 增长 趋势 。 
分 析 结 果 6 显示 的 是 变量 制度 因素 随时 间 的 变动 趋势 ， 如 图 15.7 所 示 。 


图 15.7 分 析 结 果 图 6 


从 上 述 分 析 结 果 中 可 以 看 到 变量 制度 因素 具有 明显 、 稳 定 的 向 上 增长 趋势 。 这 是 显 而 易 
见 的 。 
分 析 结 果 7 显示 的 是 变量 城乡 人 口 净 转 移 的 增 量 随时 间 的 变动 趋势 ， 如 图 15.8 所 示 。 
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图 15.8 分 析 结 果 7 


从 上 述 分 析 结 果 中 可 以 看 到 变量 城乡 人 口 净 转 移 的 增 量 没有 明显 、 稳 定 的 长 期 变化 方向 。 
分 析 结 果 8 显示 的 是 变量 城镇 失业 规模 随时 间 的 变动 趋势 ， 如 图 15.9 所 示 。 


图 15.9 分 析 结 果 8 


从 上 述 分 析 结 果 中 可 以 看 到 变量 城镇 失业 规模 的 增 量 没有 明显 、 稳 定 的 长 期 变化 方向 。 
分 析 结 果 9 显示 的 是 变量 城乡 收入 差距 随时 间 的 变动 趋势 ， 如 图 15.10 所 示 。 


图 15.10 分 析 结 果 9 


从 上 述 分 析 结 果 中 可 以 看 到 变量 城乡 收入 差距 的 增 量 没有 明显 、 稳 定 的 长 期 变化 方向 。 
分 析 结果 10 显示 的 是 变量 制度 因素 的 增 量 随时 间 的 变动 趋势 ， 如 图 15.11 所 示 。 
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图 15.11 分 析 结果 10 
从 上 述 分 析 结 果 中 可 以 看 到 变量 制度 因素 的 增 量 没有 明显 、 稳 定 的 长 期 变化 方向 。 


15.1.5 “案例 延伸 


上 述 的 Stata 命令 比较 简洁 ， 分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 

1. 延伸 1: 清除 数据 的 时 间 序 列 格式 

例如 ， 我 们 要 把 数据 恢复 为 普通 的 数据 ， 那 么 操作 命令 就 是 

tsset,clear 

在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 即 可 。 

2. 延伸 2: 关于 数据 处 理 的 一 般 说 明 

- 般 情 况 下 ， 我 们 要 消除 变量 的 时 间 序 列 长 期 走势 后 或 者 说 变量 平稳 后 才能 进行 回归 得 
出 有 效 的 结论 , 所 以 在 绘制 变量 序列 图 的 时 候 , 如 果 该 变量 存在 趋势 ， 就 应 该 进行 一 阶 差分 后 
再 进行 查看 。 所 谓 变 量 的 一 阶 差 分 指 的 是 对 变量 的 原始 数据 进行 处 理 , 用 前 面 的 数据 减 去 后 面 
的 数据 后 得 出 的 一 个 新 的 时 间 序 列 。 如 果 变 量 的 一 阶 差分 还 是 存在 趋势 ,就 应 该 进行 二 阶 差分 
后 再 进行 查看 ,依次 类 推 ， 直 到 数据 平稳 。 所 谓 二 阶 差分 指 的 是 在 把 一 阶 差 分 得 到 的 时 间 序 列 
数据 作为 原始 数据 ， 并 进行 前 项 减 后 项 处 理 后 得 出 新 的 时 间 序列 。 一 般 情况 下 ,如 果 数 据 的 低 
阶 差 分 是 平稳 的 ， 那 么 高 阶 差 分 也 是 平稳 的 。 

3. 延伸 3: 关于 时 间 序 列 运算 的 有 关 说 明 

在 上 面 的 案例 中 ， 使 用 了 d.m、d.s、d.g、d.t 等 符号 分 别 用 来 表示 m、s、g、t 等 变量 的 一 
阶 差分 。 其 实 还 有 其 他 很 多 简便 的 运算 可 供用 户 使 用 。 常 用 的 Stata 命令 符号 与 对 应 的 时 间 序 
列 运算 含义 如 表 15.2 所 示 。 


表 15.2 常用 的 Stata 命令 符号 与 对 应 的 时 间 序列 运算 含义 


Stata 命 令 符号 时 间 序 列 运算 含义 

L. 变量 的 滞后 一 期 值 (Yu ) 

和 变量 的 滞后 二 期 值 〈Y.,) 

EL, CHa 变量 的 滞后 一 期 值 到 滞后 三 期 值 (Ye 、Y.2、Yra) 
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( 续 表 ) 
Stata 命 令 符号 时 间 序 列 运算 含义 
FE. 变量 的 向 前 一 期 值 (Yuy) 
F2. 变量 的 向 前 二 期 值 (Yu2) 
D. 变量 的 一 阶 差分 (Yi-Yu) 
D2. 变量 的 二 阶 差分 (Yi-Ye) - 〈YLi-Yt2) 
S. 变量 的 季节 差分 (Yi-Ye)， 与 D. 定 义 相同 
S2. 变量 的 二 期 季节 差分 (Yi-Ytaz)， 注 意 与 D2. 不 同 


15.2 ”单位 根 检验 


15.2.1 ”单位 根 检验 的 功能 与 意义 


对 于 一 个 时 间 序 列 数据 而 言 ， 数 据 的 平稳 性 对 于 模型 的 构建 是 非常 重要 的 。 如 果 时 间 序 
列 数 据 是 不 平稳 的 ， 可 能 会 导致 自 回归 系数 的 估计 值 向 左 偏向 于 0， 使 传统 的 T 检 验 失效 ， 也 
有 可 能 会 使 得 两 个 相互 独立 的 变量 出 现 假 相关 关系 或 者 回归 关系 , 造成 模型 结果 的 失真 。 在 时 
间 序 列 数据 不 平稳 的 情况 下 , 目前 公认 的 能 够 有 效 解决 假 相关 或 者 假 回归 , 构建 出 合理 模型 的 
方法 有 两 种 : 一 种 是 先 对 变量 进行 差分 直到 数据 平稳 ， 再 把 得 到 的 数据 进行 回归 的 方式 ; 另 一 
种 就 是 进行 协 整 检验 并 构建 合理 模型 的 处 理 方式 。 那 么 如 何 判断 数据 是 否 平稳 呢 ? 上 节 中 
提 到 的 绘制 时 间 序 列 图 的 方法 可 以 作为 初步 推测 或 者 辅助 检验 的 一 种 方式 。 但 一 种 更 精确 
的 检验 方式 是 : 如 果 数 据 没 有 单位 根 ， 我 们 就 认为 它 是 平稳 的 ， 这 时 就 需要 用 到 本 节 介 绍 
的 单位 根 检验 。 


15.2.2 ”相关 数据 来 源 


C= 下 载 资源 Wideo\chap15\… 


下 载 资源 :\sample\chap15\ 案 例 15.dta 


至， 


【 例 15.2】 本 节 沿 用 上 节 的 案例 ， 试 通过 单位 根 检 验 的 方式 来 判断 相关 变量 包括 城乡 人 口 净 
转移 、 城 镇 失业 规模 、 城 乡 收入 差距 等 变量 是 否 平稳 。 


15.2.3 Stata 分 析 过 程 


单位 根 检验 的 方式 有 很 多 种 ， 此 处 我 们 主要 介绍 常用 的 两 种 方式 ， 包 括 ADF 检验 和 PP 
检验 。 在 上 一 节 中 , 我 们 通过 绘制 时 间 序列 趋势 图 发 现 城乡 人 口 净 转 移 、 城 乡 人 口 净 转 移 的 一 
阶 差分 、 城 镇 失业 规模 的 一 阶 差 分 、 城乡 收入 差距 的 一 阶 差分 是 没有 时 间 趋 势 的 , 而 城镇 失业 
规模 和 城乡 收入 差距 是 有 时 间 趋 势 的 。 这 些 结论 将 会 在 后 续 的 操作 命令 中 被 用 到 。 
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Stata 
1，ADF 检验 
操作 步骤 如 下 : 


进入 Stata 14.0， 打 开 相 关 数 据 文件 ， 弹 出 主 界面 。 
加 在 主 界面 的 “Command” 文 本 框 中 分 别 输入 如 下 命令 并 按键 盘 上 的 回 车 键 进 行 确认 。 


e dfuller mnotrend: 本 命令 的 含义 是 使 用 ADF 检验 方法 ， 对 变量 m 进行 单位 根 检 验 ， 
不 包含 时 间 趋 势 。 

。 dfuller s, trend: 本 命令 的 含义 是 使 用 ADF 检验 方法 ， 对 变量 s 进行 单位 根 检 验 ， 包 
含 时 间 趋 势 。 

。 dfuller g, trend: 本 命令 的 含义 是 使 用 ADF 检验 方法 ， 对 变量 g 进行 单位 根 检 验 ， 包 
含 时 间 趋 势 。 

。 dfuller d.m,notrend: 本 命令 的 含义 是 使 用 ADF 检验 方法 ， 对 变量 dm 进行 单位 根 检 
验 ， 不 包含 时 间 趋势 。 

。 ”dfuller d.s, notrend: 本 命令 的 含义 是 使 用 ADF 检验 方法 , 对 变量 ds 进行 单位 根 检验 ， 
不 包含 时 间 趋势 。 

。 ”dfuller d.g, notrend: 本 命令 的 含义 是 使 用 ADF 检验 方法 ,对 变量 d.g 进行 单位 根 检验 ， 
不 包含 时 间 趋 势 。 

。 ”dfuller d2.s, notrend: 本 命令 的 含义 是 使 用 ADF 检验 方法 ， 对 变量 d2.s 进行 单位 根 检 
验 ， 不 包含 时 间 趋 势 。 


设置 完毕 后 ， 等 待 输出 结果 。 

2. PP 检验 

操作 步骤 如 下 : 

加 进入 Stata 14.0， 打 开 相 关 数 据 文件 ， 弹 出 主 界面 。 

加 在 主 界面 的 “Command” 文 本 框 中 分 别 输入 如 下 命令 并 按键 盘 上 的 回 车 键 进 行 确认 。 


。 pperron mnotrend: 本 命令 的 含义 是 使 用 PP 检验 方法 ， 对 变量 m 进行 单位 根 检验 ， 
不 包含 时 间 趋 势 。 

e。 pperron s, trend: 本 命令 的 含义 是 使 用 PP 检验 方法 ， 对 变量 s 进行 单位 根 检验 ， 包 含 
时 间 趋 势 。 

。 pperron g, trend: 本 命令 的 含义 是 使 用 PP 检验 方法 ， 对 变量 g 进行 单位 根 检验 ， 包 含 
时 间 趋 势 。 

e。 pperron d.m,notrend: 本 命令 的 含义 是 使 用 PP 检验 方法 , 对 变量 d.m 进行 单位 根 检 验 ， 
不 包含 时 间 趋势 。 

。 ”pperron d.s, notrend: 本 命令 的 含义 是 使 用 PP 检验 方法 ， 对 变量 d.s 进行 单位 根 检验 ， 
不 包含 时 间 趋势 。 

。 pperron d.g, notrend: 本 命令 的 含义 是 使 用 PP 检验 方法 ,对 变量 dg 进行 单位 根 检 验 ， 
不 包含 时 间 趋势 。 

epperron d2.s, notrend: 本 命令 的 含义 是 使 用 PP 检验 方法 ， 对 变量 d2.s 进行 单位 根 检 
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验 ， 不 包含 时 间 趋势 


国 设置 完毕 后 ， 等 待 输出 结果 。 


15.2.4 结果 分 析 


在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 15.12~ 图 15.25 所 示 的 分 析 结 果 。 
1. ADF 检验 结果 


ADF 检验 的 结果 如 图 15.12~ 图 15.18 所 示 。 其 中 , 图 15.12 展示 的 是 城乡 人 口 净 转 移 这 一 
变量 的 ADF 检验 结果 。 


Dickey-Fuller test for unit root Number of obs = 


Interpolated Dickey-Fuller 
5 


Critical 


ztc) -1.617 -3.743 


Hackinnon approximate p-value for z(c) = 0.4745 


图 15.12 城乡 人 口 净 转 移 


ADF 检验 的 原 假设 是 数据 有 单位 根 。 从 上 面 的 结果 中 可 以 看 出 P 值 (MacKinnon 
approximate p-value for Z(t)) 为 0.4745, 接受 了 有 单位 根 的 原 假设 , 这 一 点 也 可 以 通过 观察 Z(t) 
值得 到 。 实 际 ZQ) 值 为 -1.617， 在 1% 的 置信 水 平 (-3.743) 、5% 的 置信 水 平 (-2.997) 、10% 
的 置信 水 平 上 〈-2.629) 都 无 法 拒绝 原 假设 ， 所 以 城乡 人 口 净 转 移 这 一 变量 数据 是 存在 单位 根 
的 ， 需 要 对 其 做 一 阶 差 分 后 再 继续 进行 检验 。 

图 15.13 展示 的 是 城镇 失业 规模 这 一 变量 的 ADF 检验 结果 。 


Test 13 Critical Ss Critical 10% Critical 
Stacistic Value Value Value 


zc) -1.821 -4.362 -3.592 -3.235 


NacKinnon approximate p-value for 2(t) = 0.6948 


图 15.13 ”城镇 失业 规模 


ADF 检验 的 原 假设 是 数据 有 单位 根 。 从 上 面 的 结果 中 可 以 看 出 P 值 (MacKinnon 
approximate p-value for Z(t)) 为 0.6948, 接受 了 有 单位 根 的 原 假设 , 这 一 点 也 可 以 通过 观察 Z(t) 
值得 到 。 实 际 Z() 值 为 -1.821， 在 1% 的 置信 水 平 (-4.362) 、5% 的 置信 水 平 (-3.592) 、10% 
的 置信 水 平 上 (-3.235) 都 无 法 拒绝 原 假设 , 所 以 城镇 失业 规模 这 一 变量 数据 是 存在 单位 根 的 ， 
需要 对 其 做 一 阶 差 分 后 再 继续 进行 检验 。 

图 15.14 展示 的 是 城乡 收入 差距 这 一 变量 的 ADF 检验 结果 。 
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Dickey-Fuller test for unit root Number of obs = 27 
Interpolated Dickey-Fuller 
Test 1% Critical 5% Critical 10% Critical 
Statistic Value Value Value 
z(t) -2.435 -4.362 -3.592 -3.235 


NacKinnon approximate p-value for Z(t) = 0.3612 
图 15.14 城乡 收入 差距 


ADF 检验 的 原 假设 是 数据 有 单位 根 。 从 上 面 的 结果 中 可 以 看 出 P 值 ( MacKinnon 
approximate p-value for Z(t)) 为 0.3612, 接受 了 有 单位 根 的 原 假设 , 这 一 点 也 可 以 通过 观察 Z(t) 
值得 到 。 实 际 Z(9 值 为 -2.435， 在 1% 的 置信 水 平 〈-4.362) 、5% 的 置信 水 平 (-3.592) 、10% 
的 置信 水 平 上 (-3.235) 都 无 法 拒绝 原 假设 , 所 以 城乡 收入 差距 这 一 变量 数据 是 存在 单位 根 的 ， 
需要 对 其 做 一 阶 差 分 再 继续 进行 检验 。 

图 15.15 展示 的 是 城乡 人 口 净 转移 这 一 变量 的 一 阶 差 分 的 ADF 检验 结果 。 


+ dfuller d.m,notrend 


Dickey-Fuller test for unit rooc Number of obs = 25 


Inrerpolaced Dickey-Fuller 
Test 1 Critical St Critical 10% Critical 
Statistic Value Value Value 


zte) -8.085 -3.750 -3.000 -2.630 


MacKinnon approximate p-value for Z(t) = 0.0000 
15.15 城乡 人 口 净 转移 一 阶 差分 


ADF 检验 的 原 假设 是 数据 有 单位 根 。 从 上 面 的 结果 中 可 以 看 出 了 值 (MacKinnon 
approximate p-value for Z(t)) 为 0.0000, 拒绝 了 有 单位 根 的 原 假设 , 这 一 点 也 可 以 通过 观察 Z(t) 
值得 到 。 实 际 Z(t) 值 为 -8.085， 在 1% 的 置信 水 平 (-3.750) 、5% 的 置信 水 平 (-3.000) 、10% 
的 置信 水 平 上 〈-2.630) 都 应 拒绝 原 假设 ， 所 以 城乡 人 口 净 转 移 这 一 变量 的 一 阶 差分 数据 是 不 
存在 单位 根 的 。 

图 15.16 展示 的 是 变量 城镇 失业 规模 的 一 阶 差分 的 ADF 检验 结果 。 


Tesc 14 Critical 5 Critical 10* Critical 
Statistic Value Value Value 


ztc) -2.174 -3.743 -2.997 -2.629 


Nackinnon approximate p-value for Z(t) = 0.2158 


图 15.16 ”镇 失业 规模 一 阶 差分 


ADF 检验 的 原 假设 是 数据 有 单位 根 。 从 上 面 的 结果 中 可 以 看 出 P 值 (MacKinnon 
approximate p-value for Z(t)) 为 0.2158, 接受 了 有 单位 根 的 原 假设 , 这 一 点 也 可 以 通过 观察 Z(t) 
值得 到 。 实 际 Z() 值 为 -2.174， 在 1% 的 置信 水 平 (-3.743) 、5% 的 置信 水 平 (-2.997) 、10% 
的 置信 水 平 上 〈-2.629) 都 无 法 拒绝 原 假设 ， 所 以 城镇 失业 规模 这 一 变量 的 一 阶 差分 数据 是 存 
在 单位 根 的， 需要 对 城镇 失业 规模 做 二 阶 差分 后 再 继续 进行 检验 。 
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Dickey-Fuller test for unit root Number of obs = 26 
Interpolated Dickey-Fuller 


Test 13 Critical Ss Critical 10* Critical 
Stacistic Value Value Value 


zte) -4.016 -3.743 -2.997 -2.629 


NacKinnon approximate p-value for Z(t) = 0.0013 


15.17 城乡 收入 差距 一 阶 差分 


ADF 检验 的 原 假设 是 数据 有 单位 根 。 从 上 面 的 结果 中 可 以 看 出 P 值 (MacKinnon 
approximate p-value for Z(t)) 为 0.0013, 拒绝 了 有 单位 根 的 原 假设 , 这 一 点 也 可 以 通过 观察 Z(t) 
值得 到 。 实 际 Z(b 值 为 -4.016， 在 1% 的 置信 水 平 〈-3.743) 、5% 的 置信 水 平 (-2.997) 、10% 
的 置信 水 平 上 〈-2.629) 都 拒绝 原 假设 ， 所 以 城乡 收入 差距 这 一 变量 的 一 阶 差 分 数据 是 不 存在 
单位 根 的 。 

图 15.18 展示 的 是 变量 城镇 失业 规模 的 二 阶 差分 的 ADF 检验 结果 。 


Tesc 13 Critical 5 Critical 10% Critical 
Statistic Value Value Value 


zc) -4.192 -3.750 -3.000 -2.630 


NacKinnon approximate p-value for Z(t) = 0.0007 


15.18 ”城镇 失业 规模 的 二 阶 差分 


ADF 检验 的 原 假设 是 数据 有 单位 根 。 从 上 面 的 结果 中 可 以 看 出 P 值 (MacKinnon 
approximate p-value for Z(t)) 为 0.0007, 拒绝 了 有 单位 根 的 原 假设 。 这 一 点 也 可 以 通过 观察 Z(t) 
值得 到 。 实 际 Z(b 值 为 -4.192， 在 1% 的 置信 水 平 (-3.750) 、5% 的 置信 水 平 〈-3.000) 、10% 
的 置信 水 平 上 《〈-2.630) 都 拒绝 原 假设 ， 所 以 城镇 失业 规模 这 一 变量 的 二 阶 差分 数据 是 不 存在 
单位 根 的 。 

2. PP 检验 结果 


PP 检验 的 结果 如 图 15.19~ 图 15.25 所 示 。 其 中 , 图 15.19 展示 的 是 城乡 人 口 净 转移 这 一 变 
量 的 PP 检验 结果 。 


. pperron m,notrend 


Phillips-Perron test for unit root Number of obs = 26 
Nevey-Vest lags = 2 
一 -一 Interpolated Dickey-Fuller 
Test 了 Critical Ss Critical 10* Critical 
Statistic Value Value Value 
(rho) -4.460 -17.268 -12.532 -10.220 
ze) -1.409 -3.743 -2.997 -2.629 


Macginnon approximate p-value for Z(t) = 0.5779 


图 15.19 城乡 人 口 净 转移 
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p-value for Z(b ) 为 0.5779， 接 受 了 有 单位 根 的 原 假设 , 这 一 点 也 可 以 通过 观察 Z(t) 值 和 Z(rho) 
值得 到 。 实 际 ZQ) 值 为 -1.409， 在 1% 的 置信 水 平 〈-3.743) 、5% 的 置信 水 平 (-2.997) 、10% 
的 置信 水 平 上 (-2.629 ) 都 无 法 拒绝 原 假设 ,实际 Z(rho) 值 为 -4.460, 在 1% 的 置信 水 平 (-17.268)、 
5% 的 置信 水 平 〈-12.532) 、10% 的 置信 水 平 上 〈-10.220) 都 无 法 拒绝 原 假设 ， 所 以 城乡 人 口 
净 转 移 这 一 变量 数据 是 存在 单位 根 的 ， 需 要 对 其 做 一 阶 差 分 后 再 继续 进行 检验 。 

图 15.20 展示 的 是 城镇 失业 规模 这 一 变量 的 PP 检验 结果 。 


Number of obs = 
Newey-Wesc lags = 


Interpolated Dickey-Fuller 
Test 14 Critical St Critical 10% Critical 
Statistic Value Value Value 


Ztrho) -3.426 -22.756 -18.052 -15.696 
ze) -1.800 -4.362 -3.592 -3.235 


Mackinnon approximate p-value for Z(t) = 0.7048 


图 15.20 ”城镇 失业 规模 


PP 检验 的 原 假设 是 数据 有 单位 根 。 从 上 面 的 结果 中 可 以 看 出 P 值 (MacKinnon approximate 
p-value for Z(t)) 为 0.7048， 接 受 了 有 单位 根 的 原 假设 , 这 一 点 也 可 以 通过 观察 Z(t) 值 和 Z(rho) 
值得 到 。 实 际 Z(D 值 为 -1.800， 在 1% 的 置信 水 平 (-4.362) 、5% 的 置信 水 平 (-3.592) 、10% 
的 置信 水 平 上 (-3.235 ) 都 无 法 拒绝 原 假设 ,实际 Z(rho) 值 为 -3.426, 在 1% 的 置信 水 平 (-22.756)、 
5% 的 置信 水 平 〈-18.052) 、10% 的 置信 水 平 上 〈-15.696〉 都 无 法 拒绝 原 假设 ， 所 以 城镇 失业 
规模 这 一 变量 数据 是 存在 单位 根 的 ， 需 要 对 其 做 一 阶 差 分 后 再 继续 进行 检验 。 

图 15.21 展示 的 是 城乡 收入 差距 这 一 变量 的 PP 检验 结果 。 


. pperron g, trend 


Phillips-Perron test for unit root Number of obs = 27 
Nevey-Vest lags = 2 
Interpolated Dickey-Fuller 
Tearc 13 Critical S54 Critical 10* Critical 
Stacistic Value Value 
Ztrho) -7.547 -22.756 -18.052 -15.696 
ze) -2.459 -4.362 -3.592 -3.235 


NacRinnon approximate p-value for Z(t) = 0.3489 


图 15.21 城乡 收入 差距 


PP 检验 的 原 假 设 是 数据 有 单位 根 。 从 上 面 的 结果 中 可 以 看 出 P 值 (MacKinnon approximate 
p-value for Z(D ) 为 0.3489， 接 受 了 有 单位 根 的 原 假设 , 这 一 点 也 可 以 通过 观察 Z(D 值 和 Z(rho) 
值得 到 。 实 际 Z(t) 值 为 -2.459， 在 1% 的 置信 水 平 (-4.362) 、5% 的 置信 水 平 (-3.592) 、10% 
的 置信 水 平 上 (-3.235 ) 都 无 法 拒绝 原 假设 .实际 Z(rho) 值 为 -7.547, 在 1% 的 置信 水 平 (-22.756)、 
5% 的 置信 水 平 〈-18.052) 、10% 的 置信 水 平 上 〈-15.696〉 都 无 法 拒绝 原 假 设 ， 所 以 城乡 收入 
差距 这 一 变量 数据 是 存在 单位 根 的 ， 需 要 对 其 做 一 阶 差分 后 再 继续 进行 检验 。 

图 15.22 展示 的 是 城乡 人 口 净 转 移 这 一 变量 的 一 阶 差 分 的 PP 检验 结果 。 
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，Bperron d.m,notrend 


Phillips-Perron reat for unit root Number of cba = 25 
Newey-West lags = 2 


Interpolated Dickey-Fuller 


Test 1% Critical 5% Critical 108 Critical 
Statistic Value Value Value 

Z (rho) -35.522 -17.200 -12.500 -10.200 

zc) -8.079 -3.750 -3.000 -2.630 

Hackinnon approximate p-value for Z(t) = 0.0000 


15.22 ”城乡 人 口 净 转 移 一 阶 差分 


PP 检验 的 原 假 设 是 数据 有 单位 根 。 从 上 面 的 结果 中 可 以 看 出 P 值 (MacKinnon approximate 
p-value for Z(t) ) 为 0.0000， 拒 绝 了 有 单位 根 的 原 假设 , 这 一 点 也 可 以 通过 观察 Z(D 值 和 Z(rho) 
值得 到 。 实 际 Z(b 值 为 -8.079， 在 1% 的 置信 水 平 〈-3.7530) 、5% 的 置信 水 平 〈-3.000) 、10% 
的 置信 水 平 上 (-2.630) 都 应 拒绝 原 假设 。 实 际 Z(rho) 值 为 -35.522, 在 1% 的 置信 水 平 (-17.200)、 
5% 的 置信 水 平 〈-12.500) 、10% 的 置信 水 平 上 〈-10.200) 都 应 拒绝 原 假 设 ， 所 以 城乡 人 口 净 
转移 这 一 变量 的 一 阶 差分 数据 是 不 存在 单位 根 的 。 

图 15.23 展示 的 是 变量 城镇 失业 规模 的 一 阶 差分 的 PP 检验 结果 。 


. pperron d.s, notrend 


phillips-Perron test for unit root Nunber of obs = 
Nevey-Veat lags = 


Interpolated Dickey-Fuller 
Teac 18 Critical St Critical 10% Critical 
Statistic Value Value Value 


2(rho) -10.379 -17.268 -12.532 -10.220 
Z(t) -2.386 -3.743 -2.997 -2.629 


Mackinnon approximate p-value for Z(t) = 0.1457 


15.23 ”城镇 失业 规模 一 阶 差分 


PP 检验 的 原 假设 是 数据 有 单位 根 。 从 上 面 的 结果 中 可 以 看 出 P 值 (MacKinnon approximate 
p-value for Z(t)) 为 0.1457， 接 受 了 有 单位 根 的 原 假设 ， 这 一 点 也 可 以 通过 观察 Z(D 值 和 Z(rho) 
值得 到 。 实 际 Z(t) 值 为 -2.386， 在 1% 的 置信 水 平 -3.743) 、5% 的 置信 水 平 -2.997) 、10% 的 置 
信 水 平 上 《〈-2.629) 都 无 法 拒绝 原 假设 。 实 际 Z(rho) 值 为 -10.379， 在 1% 的 置信 水 平 -17.268) 、 
5% 的 置信 水 平 (-12.532〉 、10% 的 置信 水 平 上 〈-10.220) 都 无 法 拒绝 原 假 设 ， 所 以 城镇 失业 规模 
这 一 变量 的 一 阶 差分 数据 是 存在 单位 根 的 ， 需 要 对 城镇 失业 规模 做 二 阶 差分 后 再 继续 进行 检验 。 

图 15.24 展示 的 是 变量 城乡 收入 差距 的 一 阶 差分 的 PP 检验 结果 。 


+ pperron d.g, notrend 


Phillips-Perron test for unit root Number of obs = 
Nevey-West lags = 


Interpolated Dickey-Fuller 
Test 1 Critical 5 Critical 10* critical 
Stacistic Value Value Value 


2Z(rho) -21.701 -17.268 -12.532 -10.220 
ze) -4.051 -3.743 -2.997 -2.629 


NacKinnon approximate p-value for Z(t) = 0.0012 


15.24 城乡 收入 差距 一 阶 差分 


309 


p-value for Z(t)) 为 0.0012， 拒 绝 了 有 单位 根 的 原 假 设 ， 这 一 点 也 可 以 通过 观察 Z(t) 值 和 Z(rho) 
值得 到 。 实 际 Z(b 值 为 -4.051， 在 1% 的 置信 水 平 〈-3.743) 、5% 的 置信 水 平 (-2.997) 、10% 
的 置信 水 平 上 〈-2.629) 都 拒绝 原 假 设 。 实际 Z(rho) 值 为 -21.701, 在 1% 的 置信 水 平 (-17.268) 、 
5% 的 置信 水 平 〈-12.532) 、10% 的 置信 水 平 上 〈-10.220) 都 应 拒绝 原 假 设 ， 所 以 城乡 收入 差 
距 这 一 变量 的 一 阶 差分 数据 是 不 存在 单位 根 的 。 

图 15.25 展示 的 是 变量 城镇 失业 规模 的 二 阶 差分 的 PP 检验 结果 。 


. pperron d2.s, notrend 


for unic rooc Number of obs = 25 
Nevey-West lags = 2 


phillips-Perron test 


Interpolated Dickey-Fuller 


Test 1% Critical 5+ Critical 10* Critical 
Statistic Value Value Value 

Zrho) -17.168 -17.200 -12. 500 -10.200 

Ze) -4.176 -3.750 -3.000 -2.630 


MacKinnon approximate p-value for z(c) = 0.0007 


15.25 ”城镇 失业 规模 二 阶 差分 


PP 检验 的 原 假设 是 数据 有 单位 根 。 从 上 面 的 结果 中 可 以 看 出 P 值 (MacKinnon approximate 
p-value for Z(t)) 为 0.0007， 拒 绝 了 有 单位 根 的 原 假设 。 这 一 点 也 可 以 通过 观察 Z(t) 值 和 Z(rho) 
值得 到 。 实 际 Z(0 值 为 -4.176， 在 1% 的 置信 水 平 (-3.750〉 、5% 的 置信 水 平 〈-3.000) 、10% 
的 置信 水 平 上 (-2.630) 都 拒绝 原 假设 。 实际 Z(rho) 值 为 -17.168, 在 1% 的 置信 水 平 (-17.200) 、 
5% 的 置信 水 平 (-12.500〉、10% 的 置信 水 平 上 〈-10.200〉 都 应 拒绝 原 假设 ， 所 以 城镇 失业 规 
模 这 一 变量 的 二 阶 差分 数据 是 不 存在 单位 根 的 。 

可 以 看 出 ， 在 本 例 中 ADF 检验 结果 和 PP 检验 结果 是 完全 一 致 的 ， 所 以 ， 通 过 比较 可 以 
有 把 握 地 认为 城乡 人 口 净 转 移 、 城乡 收入 差距 两 个 变量 是 一 阶 单 整 的 , 而 城镇 失业 规模 变量 是 
二 阶 单 整 的 。 


15.2.5 ”案例 延伸 


按照 前 面 讲述 的 解决 方法 ， 可 以 对 变量 进行 相应 阶 数 的 差分 ， 然 后 进行 回归 ， 即 可 避免 
出 现 伪 回归 的 情况 。 
构建 如 下 所 示 的 模型 方程 : 


d.m=a*d.gtb*d2.stc*ttu 


其 中 ，a、b、c 为 系数 ，u 为 误差 扰动 项 。 
在 主 界面 的 “Command” 文 本 框 中 输入 如 下 命令 并 按键 盘 上 的 回 车 键 进行 确认 : 


regress d.m d2.s d.g t 


即 可 出 现 如 图 15.26 所 示 的 回归 分 析 结 果 。 
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第 15 章 “Stata 时 间 序 列 分 析 
\\\A\N\\ WN 


Source ss ar 5 Number of obs = 26 
rt 3 22) 0.26 

Hodel 127232.42 3 42410.8068 Prob > 了 = 0.8551 
Residual | 3621825.92 22 164628.451 R-squared = 0.0339 


aaj R-squared = -0.0978 
Toral | 3749058.34 25 149962.334 Root NSE = 405.74 


D.m Coef. std. Err. 上 PItl [95* Conf. Interval] 


二 
D2. .8166687 2.190912 0.37 0.713 -3.727005 5.360342 


Di. | -374.9964 525.5279 -0.71 0.483 -1464.875 714.8818 
7.656357 11.1856 0.68 0.501 -15.54116 30.85387 
cons | -81.62952 187.2142 -0.44 0.667 -469.888 306.6289 


15.26 ”分析 结果 图 


从 上 述 分 析 结果 中 可 以 看 到 ， 结 果 与 本 章 开 始 在 数据 无 处 理 状态 下 进行 的 “ 伪 回 归 ” 的 
结果 是 不 同 的 。 可 以 看 出 共有 26 个 样本 参与 了 分 析 ， 这 是 因为 进行 差分 会 减少 观测 样本 。 模 
型 的 F 值 (3, 22)=0.26, P 值 (Prob > F) =0.8551， 说明 模 型 整体 上 是 不 显著 的 ， 本 章 开始 得 
出 的 结果 其 实 是 一 种 真 真正 正 的 “ 伪 回 归 ”。 模 型 的 可 决 系数 (R-squared) 为 0.0339， 模 型 
修正 的 可 决 系数 (Adj R-squared) 为 -0.0978， 说 明 模型 几乎 没有 什么 解释 能 力 。 

模型 的 回归 方程 是 : 


d.m=0.8166687* d2.s-374.9964*d1.g+7.656357*t+-81.62952 


变量 d2.s 的 系数 标准 误 是 2.190912, t 值 为 0.37, P 值 为 0.713, 系数 是 非常 不 显著 的 , 95% 
的 置信 区 间 为 [-3.727005,5.360342]。 变 量 dl.g 的 系数 标准 误 是 525.5279，t 值 为 -0.71，P 值 为 
0.483， 系 数 也 是 非常 显著 的 ，95% 的 置信 区 间 为 [-1464.875, 714.8818]。 变 量 t 的 系数 标准 误 是 
11.1856，t 值 为 0.68，P 值 为 0.501， 系 数 也 是 非常 显著 的 ，95% 的 置信 区 间 为 [-15.54116 ， 
30.85387]。 常数 项 的 系数 标准 误 是 187.2142, t 值 为 -0.44, P 值 为 0.667, 系数 也 是 非常 显著 的 ， 
95% 的 置信 区 间 为 [-469.888, 306.6289] 。 

从 上 面 的 分 析 可 以 看 出 ， 本 模型 得 到 的 基本 结论 是 城乡 人 口 转移 规模 (m) 随 着 城乡 实际 
收入 差距 (g) 的 扩大 而 扩大 ; 城镇 失业 规模 (s) 对 农村 劳动 力 转移 具有 阻碍 作用 ;制度 因素 
(t) 对 农村 劳动 力 转移 的 制约 作用 逐渐 下 降 ， 这 一 点 与 伪 回 归 得 出 的 结果 是 一 致 的 。 


15.3” 协 整 检 验 


15.3.1 协 整 检验 的 功能 与 意义 


在 上 一 节 中， 我们 提 到 对 于 一 个 时 间 序列 数据 而 言 ， 数 据 的 平稳 性 对 于 模型 的 构建 是 非 
常 重 要 的 。 在 时 间 序 列 数据 不 平稳 的 情况 下 , 构建 出 合理 模型 的 另外 一 种 方法 就 是 进行 协 整 检 
验 并 构建 合理 模型 。 协 整 的 思想 就 是 把 存在 一 阶 单 整 的 变量 放 在 一 起 进行 分 析 , 通过 这 些 变量 
进行 线性 组 合 ， 从 而 消除 它们 的 随机 趋势 ， 得 到 其 长 期 联动 趋势 。 目 前 学 者 公认 的 协 整 检 验 的 
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有 效 方法 有 两 种 : 一 种 是 EG-ADF 检验 ; 另外 一 种 是 迹 检验 。 一 般 认 为 ， 迹 检验 的 效果 要 好 
于 EG-ADF 检验 ， 但 EG-ADF 作为 传统 经 典 的 检验 方法 应 用 范围 要 更 广 一 些 。 下 面 就 来 介绍 
一 下 协 整 检验 在 实例 中 的 应 用 。 


15.3.2 ”相关 数据 来 源 


ee 


【 例 15.3】 本 节 沿 用 上 节 的 案例 ， 试 通过 EG-ADF 检验 、 迹 检验 等 两 种 协 整 检验 的 方式 
来 判断 相关 变量 包括 城乡 人 口 净 转 移 、 城镇 失业 规模 、 城乡 收入 差距 等 变量 是 否 存 在 长 期 协 整 


15.3.3 ”Stata 分 析 过 程 


在 前 面 两 节 中 ， 通 过 绘制 时 间 序 列 趋势 图 发 现 城乡 人 口 净 转 移 、 城 乡 人 口 净 转 移 的 一 阶 
差分 、 城镇 失业 规模 的 一 阶 差分 、 城乡 收入 差距 的 一 阶 差 分 是 没有 时 间 趋 势 的 , 而 城镇 失业 规 
模 和 城乡 收入 差距 是 有 时 间 趋 势 的 。 通过 单位 根 检验 发 现 城乡 人 口 净 转 移 、 城 乡 收入 差距 两 个 
变量 是 一 阶 单 整 的 , 而 城镇 失业 规模 变量 是 二 阶 单 整 的 。 这些 结论 将 会 在 后 续 的 操作 命令 中 被 
用 到 。 

1. EG-ADF 检验 

操作 步骤 如 下 : 


加 进入 Stata 14.0， 打 开 相 关 数据 文件 ， 弹 出 主 界面 。 
因 在 主 界面 的 “Command” 文 本 框 中 分 别 输入 如 下 命令 并 按键 盘 上 的 回 车 键 进行 确认 。 


。 regress m d.s g: 本 命令 的 含义 是 把 城乡 人 口 净 转 移 作为 因 变 量 ， 把 城镇 失业 规模 的 一 
阶 差分 、 城 乡 收 入 差距 作为 自 变 量 ， 用 普通 最 小 二 乘 估计 法 进行 估计 。 

。 predict exresid: 本 命令 的 含义 是 得 到 上 步 回 归 产 生 的 残 差 序列 。 

。 twoway(line e year): 本 命令 的 含义 是 绘制 残 差 序列 的 时 间 趋 势 图 。 

。 ”dfuller e,notrend nocon lags(1) regress: 本 命令 的 含义 是 对 残 差 序 列 进行 ADF 检验 , 观 
测 其 是 否 为 平稳 序列 ， 其 中 不 包括 时 间 趋 势 项 ， 不 包括 常数 项 ， 江 后 1 期 。 


加 设置 完毕 后 ， 等 待 输出 结果 。 
2. 迹 检 验 
操作 步 又 如 下 : 


进入 Stata 14.0， 打 开 相 关 数 据 文件 ， 弹 出 主 界面 。 
加 在 主 界面 的 “Command” 文 本 框 中 分 别 输入 如 下 命令 并 按键 盘 上 的 回 车 键 进 行 确认 。 
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。 varsoc md.s g: 本 命令 旨 在 根据 信息 准则 确定 变量 的 滞后 阶 数 。 
。 vecrank m d.s g,lags(4): 本 命令 旨 在 确定 协 整 秩 。 
。 vecm dsg,lags(4) rank(1): 本 命令 旨 在 估计 协 整 模型 。 


加 设置 完毕 后 ， 等 待 输出 结果 。 


15.3.4 结果 分 析 


在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 15.27~ 图 15.32 所 示 的 分 析 结 果 。 


1. EG-ADF 检验 

EG-ADF 的 检验 过 程 是 : 首先 把 城乡 人 口 净 转移 作为 因 变 量 , 把 城镇 失业 规模 的 一 阶 差分 、 
城乡 收入 差距 作为 自 变量 , 用 普通 最 小 二 乘 估计 法 进行 估计 得 到 残 差 序列 , 然后 对 残 差 序列 进 
行 ADF 检验 ， 观 测 其 是 否 为 平稳 序列 ， 如 果 残 差 序 列 是 平稳 的 ， 那 么 变量 之 间 的 长 期 协 整 关 
系 就 存在 ， 如 果 残 差 序列 是 不 平稳 的 ， 那 么 变量 之 间 的 长 期 协 整 关系 就 不 存在 。 本 例 中 ， 
EG-ADF 检验 的 结果 如 图 15.27~ 图 15.30 所 示 。 其 中 ， 图 15.27 展示 的 是 把 城乡 人 口 净 转 移 作 
为 因 变量 , 把 城镇 失业 规模 的 一 阶 差分 、 城乡 收入 差距 作为 自 变量 , 用 普通 最 小 二 乘 估计 法 进 
行 估计 的 结果 。 


, regress m d.s g 

Source ss dr ns Number of obs = 27 
Fl 2 20) = .29 
Hodel | 2433652.47 2 1216826.24 Prob > 了 = 0.0130 
Residual | 5579900.45 = 24 232495.852 R-squared = 0.3037 
Adj R-squared = 0.2457 
Toral | 8013552.92 26 308213.574 Root MSE = 482.18 
m Coef. Std. Err. 上 Pp>ltl [95* Conf. Interval] 

3 
Dl. | -1.229304 2.374201 -0.52 0.609 -6.129415 3.670806 
g 793.4284 。 271.4427 2.92 0.007 233.1982 。 1353.659 
_cona | -12.01591 401.9297 -0.03 0.976 -841.5581 。 817.5263 


图 15.27 用 普通 最 小 二 乘 估计 法 进行 估计 


从 上 述 分 析 结果 中 可 以 看 到 共有 27 个 样本 参与 了 分 析 。 模 型 的 F 值 (2, 24) = 5.23，P 值 
(Prob >F) = 0.0130, 说 明 模型 整体 上 是 比较 显著 的 。 模 型 的 可 决 系数 (R-squared ) 为 0.3037， 
模型 修正 的 可 决 系数 (Adj R-squared) 为 0.2457， 说 明 模型 的 解释 能 力 非常 一 般 。 
模型 的 回归 方程 是 : 


m=-1.229304* d1.S+793.4284* g-14.01591 


变量 dl.s 的 系数 标准 误 是 2.374201，t 值 为 -0.52，P 值 为 0.609， 系 数 是 非常 不 显著 的 ， 
95% 的 置信 区 间 为 [-6.129415,3.670806]。 变 量 g 的 系数 标准 误 是 271.4427, t 值 为 2.92，P 值 为 
0.007, 系数 也 是 非常 显著 的 ，95% 的 置信 区 间 为 [233.1982 , 1353.659]。 常 数 项 的 系数 标准 误 是 
401.9297，t 值 为 -0.03，P 值 为 0.976， 系 数 也 是 非常 不 显著 的 ，95% 的 置信 区 间 为 [-841.5581 ， 
817.5263]。 
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15.28 ”模型 残 差 的 预测 结果 
图 15.29 展示 的 是 残 差 序列 的 时 间 走 势 ， 可 以 发 现 残 差 序 列 是 没有 固定 时 间 趋 势 的 。 


500 


Residuals 
0 


一 | ， | ， 
1980 1985 1990 1995 2000 2005 
Yoer 
图 15.29 ” 残 差 序列 的 时 间 走 势 
图 15.30 展示 的 是 残 差 序列 ADF 检验 结果 。 
. dfuller e,notrend nocon lags(1) regress 
Augmented Dickey-Fuller test for unit rooc Number of obs . 25 
Interpolated Dickey-Fuller 
west 1 critical SEE 
Statistic Value Value Value 
Z(t) -2.273 -2.660 -1.950 -1.600 
D.e | Coef. Std. Err. t P>ltl [95% Conf. Interval] 
E 
L1. ~-.3933092 -1730557 -2.27 0.033 -.7513023 -.0353162 
Lp. ~.0295201 .1938465 -0.15 0.880 ~-.4305222 371482 


15.30 ” 残 差 序列 ADF 检验 结果 


ADF 检验 的 原 假设 是 数据 有 单位 根 。 从 上 面 的 结果 中 可 以 看 出 实际 Z(D 值 为 -2.273， 介 于 
1% 的 置信 水 平 (-2.660) 和 5% 的 置信 水 平 (-1.950) 之 间 ， 所 以 应 该 拒绝 存在 单位 根 原 假设 。 
因此 残 差 序列 是 不 存在 单位 根 的 ， 或 者 说 残 差 序列 是 平稳 的 。 

综 上 所 述 ， 城 乡 人 口 净 转移 、 城 镇 失业 规模 、 城 乡 收入 差距 3 个 变量 存在 协 整 关系 。 根 
据 上 面 的 分 析 结 果 可 以 构建 出 相应 的 模型 来 描述 这 种 协 整 关系 。 关 于 这 一 点 将 在 本 节 的 案例 延 
伸 部 分 进行 详细 说 明 。 

2. 迹 检验 

迹 检验 的 过 程 是 : 首先 要 根据 信息 准则 确定 变量 的 滞后 阶 数 ， 即 模型 中 变量 的 个 数 。 信 
息 准则 的 概念 是 针对 变量 的 个 数 ,学 者 们 认为 只 有 适当 变量 的 个 数 才 是 合理 的 , 如 果 变 量 太 少 ， 
会 遗漏 很 多 信息 ， 导 致 模型 不 足以 解释 因 变量 ， 如 果 变 量 太 多 ， 就 会 导致 信息 重合 ,同样 导 


314 


\ 


\ 
NN 


A 


、、 人 


第 15 章 “Stat 时间 序 列 分 析 


\\\\\\\\\\\\\\\\\ 


致 建 模 失 真 。 目 前 国际 上 公认 的 比较 合理 的 信息 准则 有 很 多 种 , 所 以 研究 者 在 选取 滞后 阶 数 时 
要 适当 加 入 自己 的 判断 。 在 确定 滞后 阶 数 后 ， 我 们 要 确定 协 整 秩 , 协 整 秩 代 表 着 协 整 关系 的 个 
数 。 变 量 之 间 往 往 会 存在 多 个 长 期 均衡 关系 ， 所 以 协 整 秩 并 不 必然 等 于 1。 在 确定 协 整 秩 后 ， 
我 们 就 可 以 构建 相应 的 模型 , 并 写 出 协 整 方程 了 。 本 例 中 , 迹 检验 的 结果 如 图 15.31 和 图 15.32 
所 示 。 


varsoc m d,s 可 


Selection-order criteria 


Sample: 1983 - 2005 Nuber of obs 23 


lag LL LR df op FPE AIC HQIC SBIC 


0 | -298.833 5.0e+07 26.2463 26.2836 26.3944 
1 9 0.000 5.0e+06* 23.9293 24.0783 24.5218* 
2 9 0.067 5.7e+06 24.0171 24.2778 25.0538 
3 -245.8 18.793 9 0.027 6.3e+06 23.9826 24.3551 25.4637 
4 | -231.844 27.912+* 9 

nd 

下 


-263.187 71.291 
-255,196 15,982 


0.001 5.3e+06 23.5516* 24.0359% 25.477 


图 15.31 根据 信息 准则 确定 变量 滞后 阶 数 


图 15.31 给 出 了 根据 信息 准则 确定 的 变量 滞后 阶 数 分 析 结 果 。 最 左 列 的 lag 表示 的 是 滞后 
阶 数 ，LL、LR 两 列表 示 的 是 统计 量 ，df 表示 的 是 自由 度 ，P 值 表示 的 是 对 应 滞后 阶 数 下 模型 
的 显著 性 ，FPE、AIC、HQIC、SBIC 代表 的 是 4 种 信息 准则 ， 其 中 值 越 小 越 好 ， 越 应 该 选用 ， 
这 一 点 也 可 以 通过 观察 “* ”号 来 验证 ， 带 “*” 号 的 说 明 在 本 信息 准则 下 的 最 优 滞后 阶 数 。 最 
下 面 两 行文 字 说 明 的 是 模型 中 的 外 生变 量 和 内 生变 量 ， 本 例 中 ， 外 生变 量 包 括 m、D.s 
(Endogenous: m D.s g) ， 内 生变 量 包 括 常数 项 (Exogenous:_ cons) 。 

综 上 记述 ， 可 以 看 出 选取 滞后 阶 数 为 1 阶 或 者 4 阶 是 比较 合适 的 ， 但 是 为 了 使 模型 中 的 
变量 更 多 一 些 ， 更 有 说 服 力 ， 我 们 选择 滞后 阶 数 为 4。 

图 15.32 展示 的 是 根据 前 面 确定 的 滞后 阶 数 确定 协 整 秩 的 结果 。 分 析 本 结果 最 直接 的 方式 
就 是 找到 带 有 “*” 号 的 迹 统计 量 (Trace Statistic) ， 本 例 中 该 值 为 14.5747， 对 应 的 协 整 秩 为 
1， 这 说 明 本 例 中 城乡 人 口交 转移 、 城 镇 失业 规模 、 城 乡 收入 差距 3 个 变量 存在 一 个 协 整 关系 。 


， veorank m d.s g/lags(4) 


8 


Johansen tests for cointegration 


Trend: constant 


Nunber of obs = 
Sample: 1983 - 2005 


Lags = 


Ss 

trace critical 

eigenvalue statistic ~ Value 

-252.19968 FE 40.7116 29.68 

-239.13121 0.67902 14.5747* 。 15.41 

-231.98625 0.46275 0.2848 3.76 
-231.84387 0.01230 


15.32 ”根据 滞后 阶 数 确定 协 整 秩 


至 此 ， 协 整 检验 完毕 。 我 们 发 现 两 种 检验 方法 得 到 的 结论 是 一 致 的 。 对 于 迹 检验 而 言 ， 
同样 可 以 构建 出 相应 的 模型 来 描述 这 种 长 期 协 整 关系 .这 一 点 也 放 到 本 节 的 案例 延伸 部 分 来 进 
行 详 细 说 明 。 
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15.3.5 ”案例 延伸 


按照 前 面 讲述 的 解决 方法 ， 可 以 对 变量 进行 相应 阶 数 的 差分 ， 然 后 进行 回归 ， 即 可 避免 
出 现 伪 回归 的 情况 。 

1. EG-ADF 检验 方法 构建 出 的 协 整 模型 

如 果 假 定 m 为 因 变量 〈 真 实情 况 需 要 进行 格 兰 杰 因 果 关 系 检 验 ， 将 在 下 节 中 说 明 ) ， 则 
构建 如 下 所 示 的 模型 方程 : 


d.m=a*d.g+b*d2.stc*ecmt1 +u 


其 中 ，a、b、c 为 系数 ，ecm 为 误差 修正 项 ，u 为 误差 扰动 项 。 
ecm 误差 修正 项 的 模型 方程 为 : 


m=a*gtb*d.stecmt 

其 中 ，a、b 为 系数 。 实 质 上 ，ecm 是 该 模型 方程 的 误差 扰动 项 ， 或 者 说 以 m 为 因 变 量 ， 
以 g、d.s 为 自 变量 进行 最 小 二 乘 估计 回归 后 的 残 差 。 

在 上 面 的 EG-ADF 检验 部 分 ， 得 到 的 ecm 模型 方程 为 : 

m=-1.229304* d1.s+793.4284* g-14.01591 

该 方程 反映 的 是 变量 的 长 期 均衡 关系 。 

然后 在 主 界面 的 “Command” 文 本 框 中 首先 输入 命令 : 


regress d.m d2.s d.g 1.e 


并 按键 盘 上 的 回 车 键 进行 确认 ， 即 可 出 现 如 图 15.33 所 示 的 回归 分 析 结 果 。 


regress d.m d2.s d.g 1.e 
Source ss df ns Number of obs = 26 
i 22) 1.67 
Model | 695996.067 3 231998.689 Prob > 了 = 0.2021 
Residual | 3053062.28 = 22 138775.558 R-squared = 0.1856 
adj R-squared = 0.0746 
Toral | 3749058.34 25 149962.334 Root NSE = 372.53 
D.m Coef. Std. Err. t Pltl [95* Conf. Interval] 

3 
D2. 1.297896 。 2.025272 0.64 0.528 -2.90226 5.498052 

g 
iis -26.2911 471.0633 -0.06 0.956 -1003.217 950.6345 

. 
L1. | -.3580287 .1659561 -2.16 0.042  -.7022007 -.0138567 
_cons 27.56783 74.25575 0.37 0.714 -126.4292 181.5648 


15.33 用 EG-ADF 检验 方法 构建 协 整 模型 


从 上 述 分 析 结果 中 可 以 看 到 共有 26 个 样本 参与 了 分 析 。 模 型 的 F 值 3, 22) = 1.67，P 值 
(Prob >F) = 0.2021, 说 明 模 型 整体 上 是 差强人意 的 。 模 型 的 可 决 系数 (R-squared ) 为 0.1856， 
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模型 修正 的 可 决 系数 (Adj R-squared) 为 0.0746， 说 明 模 型 解释 能 力 偏 弱 。 
模型 的 回归 方程 是 : 


d.m= 1.297896* d2.s— -26.2911*d1.g—0.3580287*]1.e+27.56783 


变量 d2.s 的 系数 标准 误 是 2.025272, t 值 为 0.64, P 值 为 0.528, 系数 是 非常 不 显著 的 , 95% 
的 置信 区 间 为 [-2.90226, 5.498052]。 变 量 dl.g 的 系数 标准 误 是 471.0633，t 值 为 -0.06, P 值 为 
0.956， 系 数 也 是 非常 不 显著 的 ，95% 的 置信 区 间 为 [-1003.217, 950.6345]。 变 量 11.e 的 系数 标 
准 误 是 0.1659561,t 值 为 -2.16,P 值 为 0.042, 系数 是 比较 显著 的 ,95% 的 置信 区 间 为 [-0.7022007 ， 
-0.0138567]。 常 数 项 的 系数 标准 误 是 74.25575，t 值 为 0.37，P 值 为 0.714， 系 数 也 是 非常 不 显 
著 的 ，95% 的 置信 区 间 为 [-126.4292 , 181.5648]。 

2. 迹 检验 方法 构建 出 的 协 整 模型 

从 上 面 的 分 析 中 可 以 看 出 ， 变 量 间 的 短期 关系 是 非常 不 显著 的 ， 几 乎 没有 什么 关系 。 但 
是 变量 的 长 期 均衡 关系 却 很 显著 。 下 面 利用 另外 一 种 更 加 精确 的 迹 检验 方法 构建 出 的 协 整 模型 
来 详细 研究 变量 间 的 这 种 长 期 均衡 关系 。 

在 进行 迹 检验 完毕 以 后 ， 在 主 界面 的 “Command” 文 本 框 中 输入 如 下 命令 并 按键 盘 上 的 
回 车 键 进行 确认 。 

vec m d.s g,lags(4) rank(1) 


即 可 得 到 如 图 15.34~ 图 15.38 所 示 的 分 析 结 果 。 


veo mm d.s g/lags(4) rank(1) 

Vector error-correction model 

Semple: 1983 - 2005 No. of obs = 23 
AIC = 23.8375 

Log likelihood = -239.1312 Horc = 24.27206 

Detlsigma ml) = 215429 SBIC = 25.56542 

Equation Parms RHSE R-sq chi2 P>chi2 

Dm 11 317.064 0.6252 20.01941 0.0451 

D2_s 11 26.0643 0.7158 30.22438 0.0015 

Dg 11 .169976 0.4442 9.590791 0.5675 


图 15.34 模型 方程 综述 


图 15.34 说 明 的 是 分 别 把 城乡 人 口 净 转移 的 一 阶 差 分 、 城镇 失业 规模 的 二 阶 差分 、 城乡 收 
入 差距 的 一 阶 差 分 作为 因 变量 时 的 模型 方程 综述 。 通 过 观察 图 15.34 可 以 知道 城乡 人 口 净 转移 、 
城镇 失业 规模 、 城乡 收入 差距 3 个 变量 之 间 的 协 整 关系 可 以 通过 3 个 方程 来 说 明 。 此 次 值得 强 
调 的 是 ， 协 整 关 系 表示 的 仅仅 是 变量 之 间 的 某 种 长 期 联动 关系 ， 跟 因果 关系 是 毫 无 关联 的 ， 如 
果 要 探究 变量 之 间 的 因果 关系 ,换言之 , 就 是 确定 让 谁 来 作 因 变量 的 问题 , 就 需要 用 到 格 兰 杰 
因果 关系 检验 ， 这 种 检验 方法 我 们 将 在 下 一 节 中 详细 叙述 。 

本 例 中 (实质 上 所 有 的 协 整 关系 都 是 一 样 的) , 3 个 方程 的 样本 情况 (Sample: 1983 - 2005、 
No. of obs=23) 、 信 息 准 则 情况 (AIC= 23.8375、HQIC= 24.27206、SBIC= 25.56542 ) 等 都 是 
相同 的 。 当 把 城乡 人 口 净 转移 的 一 阶 差分 作为 因 变 量 时 ， 模 型 的 可 决 系数 为 0.6252， 卡 方 值 是 
20.01941，P 值 为 0.0451; 当 把 城镇 失业 规模 的 二 阶 差 分 作为 因 变量 时 ， 模 型 的 可 决 系数 为 
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型 的 可 决 系数 为 0.4442， 卡 方 值 是 9.590791，P 值 为 0.5675。 
图 15.35 展示 的 是 把 城乡 人 口 净 转 移 这 一 变量 的 一 阶 差 分 作为 因 变 量 时 的 方程 模型 具体 
情况 。 本 分 析 结 果 的 解析 与 一 般 的 回归 方程 是 一 样 的 ， 前 面 多 有 介绍 ， 限 于 篇 幅 不 再 袭 述 。 


Coef. Std. Err. z Pp>lzl [95* Conf. Interval] 
bn 
_cel 
L1 .0055647 。 .0522526 0.11 0.915 。 -.0968486 .107978 
m 
LD. | -.4071214 .2589529 -1.57 0.116  -.9146598 .1004169 
L2D. .1040884 .2985183 0.35 0.727  -.4809968 .6891736 
L3D. .3743418 。 .2320138 1.61 0.107  -.0803968 .8290804 
s 
LD2. | -2.040869 2.395867 -0.85 0.394 -6.736682 2.654943 
L2D2. 3.086168 2.368167 1.30 0.193 -1.555354 -7.727691 
L3D2. | -1.221802 2.495776 -0.49 0.624 -6.113433 3.66983 
go 
LD. | -1030.141 553.9042 -1.86 0.063 -2115.774 55.49085 
L2D，| -158.3343 679.8208 -0.23 0.816 -1490.758 1174.09 
L3D. 1118.583 。 681.4178 1.64 0.101 -216.9715 。 2454.137 
_cons 58.07797 99.26686 0.59 0.559 -136.4815 252.6374 


图 15.35 ”以 城乡 人 口 净 转移 一 阶 差分 为 因 变 量 


图 15.36 展示 的 是 把 城乡 收入 差距 这 一 变量 的 一 阶 差 分 作为 因 变量 时 的 方程 模型 具体 情 
况 。 本 分 析 结果 的 解析 与 一 般 的 回归 方程 是 一 样 的 ， 前 面 多 有 介绍 ， 限 于 篇 幅 不 再 獒 述 。 


蒜 
cel 
ls -0197186 .0042954 4.59 0.000 .0112997 。 .0281374 
m 
LD. .0306339 .0212872 1.44 0.150 =-.0110883 .0723561 
L2D. .0523903 .0245397 2.13 0.033 .0042933 2.1004872 
L3D. 0390845 .0190727 2.05 0.040 .0017027 .0764663 
= 
Lp2. .3573081 .1969523 1.81 0.070 。 -.0287113 .7433275 
L2D2. .0424359 .1946753 = 0.22 0.827  -.3391206 .4239924 
L3D2. | -.1436708 .2051654 -0.70 0.484 =-.5457876 .2584459 
g 
LD. 82.94072 45.53371 = 1.82 0.069 -6.303715 -172.1852 
L2D. 192.2813 55.88469 3.44 0.001 82.74937 301.8133 
L3D. 155.86 56.01598 2.78 0.005 46.07073 265.6493 
cons | -16.38996 8.160235 -2.01 0.045 。 -32.38373  -.3961917 
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图 15.36 ”以 城乡 收入 差距 一 阶 差 分 为 因 变 量 


图 15.37 展示 的 是 把 城乡 人 口 净 转 移 这 一 变量 的 一 阶 差 分 作为 因 变 量 时 的 方程 模型 具体 
情况 。 本 分 析 结 果 的 解析 与 一 般 的 回归 方程 是 一 样 的， 前 面 多 有 介绍 ， 限 于 篇 幅 不 再 资 述 。 
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gg 
cel 
de 6.43e-06 .000028 0.23 0.818  -.0000485 .0000613 
m 
LD. -.000017 .0001388 -0.12 0.902  -.0002891 .0002551 
L2D. .0001119 -00016 0.70 0.484  -.0002017 .0004256 
L3D. .0000631 。 .0001244 0.51 0.612  -.0001807 .0003068 
s 
Lp2. -0003646 .0012844 0.28 0.776  -.0021528 -002882 
L2D2. .0004478 。 .0012696 0.35 0.724 。 -.0020405 .0029361 
L3D2, | -.0017889 。 .001338 。 -1.34 0.181 。 -.0044112 .0008335 
9 
LD. .1450003 。 .2969451 0.49 0.625 。 -.4370013 .727002 
L2D. .3762944 .3644483 1.03 0.302 。 -.3380111 1.0906 
L3D. -.037681 .3653045 -0.10 0.918  -.7536646 .6783026 
_cons .0299252 。 .0532164 0.56 0.574 。 -.0743771 .1342275 


图 15.37 以 城乡 人 口 净 转移 一 阶 差 分 为 因 变量 


图 15.38 展示 的 是 本 例 3 个 变量 间 的 协 整 方程 。 协 整 方程 模型 总 体 上 是 非常 显著 的 ， 卡 方 
值 为 30.78642，P 值 为 0.0000。 


Coincegracing equations 


Equation Parms chi2 Pp>chi2 


cel 2 30.78462 0.0000 


Identification: beta is exactly identified 


Johansen normalization reatriction imposed 


beca Coef. Std. Err. z pylzl [95* Conf. Interval] 
|_cel 
m 1 
s 
D1. -55.4957 13.60093 -4.08 0.000 -82.15303 -28.83837 
| -2005.838 1215.746 -1.65 0.099 -4388.657 376.981 
_cons 2708.056 6 : . : 


图 15.38 协 整 方程 

协 整 方程 的 具体 形式 为 : 

m-55.4957d1.s-2005.838g+2708.056=0 

如 果 把 m 作为 因 变 量 ， 对 上 面 的 等 式 进行 变形 ， 结 果 便 是 : 

m=-2708.056+55.4957d1.s+2005.838g 

可 以 发 现 m 与 sS、g 都 是 正 向 变动 关系 。 这 表示 的 含义 是 从 长 期 来 看 ， 城 乡 人 口 净 转移 、 
城镇 失业 规模 、 城乡 收入 差距 3 个 变量 都 是 正 向 联动 变动 的 。 这 个 结论 与 对 变量 进行 相应 阶 数 
差分 后 进行 回归 分 析 得 到 的 结论 不 同 , 这 个 结论 说 明 从 长 期 来 看 , 城镇 失业 规模 和 城乡 人 口 净 
转移 是 正 向 变动 的 , 这 也 是 可 以 理解 的 ， 因为 城乡 人 口 净 转 移 越 多 , 城镇 失业 规模 就 有 可 能 越 


大 。 而 城镇 失业 规模 越 大 ,很 可 能 也 意味 着 城镇 创造 的 就 业 机 会 越 多 ， 从 而 导致 城乡 人 口 净 转 
移 越 大 。 
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15.4 格 兰 杰 因 果 天 系 检验 


格 兰 杰 因 果 关 系 检验 的 功能 与 意义 


在 15.3 节 中 我 们 提 到 ， 协 整 关 系 表示 的 仅仅 是 变量 之 间 的 某 种 长 期 联动 关系 ， 跟 因果 关 
系 是 毫 无 关联 的 ， 如 果 要 探究 变量 之 间 的 因果 关系 ,就 需要 用 到 格 兰 杰 因果 关系 检验 。 格 兰 杰 
因果 关系 检验 的 基本 思想 是 如 果 A 变量 是 B 变量 的 因 ， 同 时 B 变量 不 是 A 变量 的 因 ， 那么 A 
变量 的 滞后 值 就 可 以 帮助 预测 B 变量 的 未 来 值 ， 同 时 B 变量 的 滞后 值 却 不 能 帮助 预测 A 变量 
的 未 来 值 。 这 种 思想 反映 到 操作 层面 就 是 如 果 A 变量 是 B 变量 的 因 , 那么 以 A 变量 为 因 变 量 、 
以 A 变量 的 滞后 值 以 及 B 变量 的 滞后 值 作为 自 变量 进行 最 小 二 乘 回 归 ， 则 B 变量 的 滞后 值 的 
系数 显著 。 另外， 需要 强调 3 点 : 一 是 格 兰 杰 因果 关系 并 非 真正 意义 的 因果 关系 ,表明 的 仅仅 
是 数据 上 的 一 种 动态 相关 关系 , 如 果 要 准确 界定 变量 的 因果 关系 , 需要 相应 的 实践 经 验 作为 支 
撑 ; 二 是 参与 格 兰 杰 因果 关系 检验 的 各 变量 要 求 是 同 阶 单 整 的 ; 三 是 存在 协 整 关系 的 变量 间 至 
少 有 一 种 格 兰 杰 因果 关系 。 


15.4.2 ”相关 数据 来 源 


下 载 资源 :\sample\chap15\ 案 例 15.dta 


【 例 15.4】 本 节 沿 用 上 节 的 案例 ， 试 通过 格 兰 杰 因果 检验 的 方式 来 判断 相关 变量 包括 城 
乡 人 口 净 转移 、 城 镇 失业 规模 、 城 乡 收入 差距 等 变量 之 间 的 格 兰 杰 因 果 关 系 。 


15.4.3 ”Stata 分 析 过 程 


在 前 面 几 节 中 ， 我 们 通过 单位 根 检验 发 现 城乡 人 口 净 转移 、 城 乡 收入 差距 两 个 变量 是 一 
阶 单 整 的 , 而 城镇 失业 规模 变量 是 二 阶 单 整 的 , 所 以 在 进行 格 兰 杰 因 果 关 系 检验 时 选择 的 变量 
是 : 城乡 人 口 净 转移 、 城 乡 收入 差距 以 及 城镇 失业 规模 的 一 阶 差分 。 

格 兰 杰 因果 关系 检验 的 操作 步骤 如 下 : 

进入 Stata 14.0， 打 开 相关 数据 文件 ， 弹 出 主 界面 。 

因 在 主 界面 的 “Command” 文 本 框 中 分 别 输入 如 下 命令 并 按键 盘 上 的 回 车 键 进 行 确认 。 


eregress m lm dl.s: 本 命令 旨 在 以 mm 为 因 变 量 ， 以 Lm、dls 为 自 变 量 ， 进 行 最 小 二 乘 
回归 分 析 。 

日 test dl.s=0: 本 命令 旨 在 检验 变量 dl.s 系数 的 显著 性 。 

。 regress d.s dl.s 1.m: 本 命令 旨 在 以 d.s 为 因 变 量 ， 以 1m、dl.s 为 自 变 量 ， 进 行 最 小 二 
乘 回归 分 析 。 


\ NAN 
、、 让 
~ \ 


上 mn 


。 testl.m=0: 本 命令 旨 在 检验 变量 Lm 系数 的 显著 性 。 

。 regress ml.m1.g: 本 命令 旨 在 以 m 为 因 变量 ,以 Lm、1.g 为 自 变量 ， 进 行 最 小 二 乘 回 
归 分 析 。 

etest 1.g=0: 本 命令 旨 在 检验 变量 1.g 系数 的 显著 性 。 

。 regress g 1g Lm: 本 命令 旨 在 以 g 为 因 变 量 ， 以 1m、1L8g 为 自 变 量 ， 进 行 最 小 二 乘 回 
归 分 析 。 

。 testl.m=0: 本 命令 旨 在 检验 变量 Lm 系数 的 显著 性 。 

。 Iegress g 1.g dl.s: 本 命令 旨 在 以 g 为 因 变 量 ,以 Lg、dl.s 为 自 变量 ， 进 行 最 小 二 乘 回 
归 分 析 。 

。 test dl.s=0: 本 命令 旨 在 检验 变量 dl.s 系数 的 显著 性 。 

。 regress d.s dl.sl.g: 本 命令 旨 在 以 ds 为 因 变 量 ， 以 1.g、dl.s 为 自 变量 ， 进 行 最 小 二 乘 
回归 分 析 。 

。 test1.g=0: 本 命令 旨 在 检验 变量 1.g 系数 的 显著 性 。 


园 设置 完毕 后 ， 等 待 输出 结果 。 


15.4.4 结果 分 析 


在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 15.39~ 图 15.44 所 示 的 分 析 结 果 。 
图 15.39 展示 的 是 城镇 失业 规模 是 否 是 城乡 人 口 净 转 移 的 格 兰 杰 因 的 检验 结果 。 通 过 观察 
ee 和 可 以 看 出 dl.s 的 系数 值 是 非常 不 显著 的 。 有 具体 体现 在 其 t 值 、F 值 以 及 P 值 上 ， 关 
结果 的 详细 解读 方法 前 面 章节 中 多 有 提 及 ， 限 于 篇 幅 此 处 不 再 袭 述 ， 所 以 ,我 们 可 以 比 
es echt 省 论 ， 城 镇 失业 规模 不 是 城乡 人 口 净 转移 的 格 兰 杰 因 。 


regress m1.m dl.s 


Source ss 上 ns Number of obs = 26 
rl 2, 23) = 15.75 

Model | 4629469.26 2 2314734.63 Prob > 了 = 0.0000 
Residual | 3380523.97 23 146979.303 R-squared = 0.5780 
adj R-squared = 0.5413 

Toral | 8009993.23 25 320399.729 Root NSE = 383.38 


m Coef. Std, Err. < Pp>ltl [95s* Conf. Interval] 


L1. .781863 。 .1432483 5.46 0.000 .4855314 = 1.078195 


s 
LD. | -.0846817 1.601568 -0.05 0.958 -3.397777 3.228413 


_cons 275.103 176.1746 1.56 0.132 -89.34196 。 639.5479 


图 15.39 ”城镇 失业 规模 不 是 城乡 人 口 净 转 移 的 格 兰 杰 因 
图 15.40 展示 的 是 城乡 人 口 净 转 移 是 否 是 城镇 失业 规模 的 格 兰 杰 因 的 检验 结果 。 通过 观察 


321 


NAN 
NN 


于 这 一 结果 的 详细 解读 方法 前 面 章节 中 多 有 提 及 ， 限 于 篇 幅 此 处 不 再 更 述 , 所以, 我 们 可 以 比 
较 有 把 握 地 得 出 结论 ， 城 乡 人 口 净 转 移 不 是 城镇 失业 规模 的 格 兰 杰 因 。 


,regress d.s dl.s 1.m 
Source ES 上 Nunmber of obs = 26 
F(t 2， 23) = 10.60 
Model | 28844.9958 2 14422.4979 Prob > 了 = 0.0005 
Residual | 31308.4809 23 1361.2383 R-squared = 0.4795 
Adj R-squared = 0.4343 
Toral | 60153.4767 25 2406.13907 Root NSE = 36.895 
D.s Coef. Std. Err. t Pitl [95% Conf. Interval] 
日 
Lp. .6456263 .154129 4.19 0.000 .3267863 .9644663 
m 
L1. .0115627 .0137857 0.84 0.410  -.0169552 .0400806 
cons | -10.07413 16.95439 -0.59 0.558 -45.14697 24.99871 
test 1.m0 
(1) Lm=0 
Yi 23 = C07 
Prob > F = 0,4102 


图 15.40 城乡 人 口 净 转 移 不 是 城镇 失业 规模 的 格 兰 杰 因 


图 15.41 展示 的 是 城乡 收入 差距 是 否 是 城乡 人 口 净 转 移 的 格 兰 杰 因 的 检验 结果 。 通过 观察 
分 析 结 果 ， 可 以 看 出 1.g 的 系数 值 是 非常 不 显著 的 。 有 具体 体现 在 其 t+ 值 、F 值 以 及 P 值 上 ， 关 
于 这 一 结果 的 详细 解读 方法 前 面 章节 中 多 有 提 及 ， 限 于 篇 幅 此 处 不 再 歼 述 ， 所 以 ,我们 可 以 比 
较 有 把 握 地 得 出 结论 ， 城 乡 收入 差距 不 是 城乡 人 口 净 转 移 的 格 兰 杰 因 。 


+ regress m1.m1.g 
Source ES af 了 5 Number of obs = 26 
7( 2, 23) = 17.70 
Hodel | 4855190.69 2 2427595.35 Prob > 了 = 0.0000 
Residual | 3154802.54 23 137165.328 R-squared = 0.6061 
adj R-squared = 0.5719 
Total | 8009993.23 25 320399.729 Root NSE = 370.36 
站 Coef. Std. Err. t Pp>ltl [95% Conf. Interval] 
m 
[多 .6777926 .156107 4.34 0.000 .3548607 。 1.000725 
g 
ha. 272.6828 。 212.3726 1.28 0.212 -166.6435 712.009 
cons | -7.728937 278.3084 -0.03 0.978 -583.4537 567.9958 
. test 1.9-0 
(Dy L.g= 0 
FL( 1 23)= 1.65 
prob > F = 0.2119 


图 15.41 城乡 收入 差距 不 是 城乡 人 口 净 转移 的 格 兰 杰 因 
图 15.42 展示 的 是 城乡 人 口 净 转移 是 否 是 城乡 收入 差距 的 格 兰 杰 因 的 检验 结果 。 通过 观察 
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分 析 结 果 ， 可 以 看 出 Lm 的 系数 值 是 非常 不 显著 的 。 有 具体 体现 在 其 + 值 、F 值 以 及 P 值 上 ， 关 
于 这 一 结果 的 详细 解读 方法 前 面 章节 中 多 有 提 及 ， 限 于 篇 幅 此 处 不 再 更 述 , 所以, 可 以 比较 有 
把 握 地 得 出 结论 ， 城 乡 人 口 净 转 移 不 是 城镇 失业 规模 的 格 兰 杰 因 。 


regress 可 1.g 1.m 
Source ss 上 ns Number of obs = 26 
F( 2, 23) = 65.41 
Model | 3.95900219 2 1.97950109 Prob > 了 = 0.0000 
Residual | .696013202 23 .030261444 R-squared = 0.8505 
Aqj R-squared = 0.8375 
Toral | 4.65501539 25 .186200615 Root NSE = .17396 
g Coef. Std. Err. | [95% Conf. Interval] 
9 
Li. .9152055 .0997519 9.17 0.000 .708853 -1.121558 
m 
L1. .0000876 。 .0000733 1.19 0.244  -.0000641 .0002393 
_cona .0514088 。 .1307221 0.39 0.698 。 -.2190104 .321828 
.test 1.m0 
(1 Lm=0 
A 
Prob > F = 0.2443 


图 15.42 城乡 人 口 净 转 移 不 是 城镇 失业 规模 的 格 兰 杰 因 


图 15.43 展示 的 是 城镇 失业 规模 是 否 是 城乡 收入 差距 的 格 兰 杰 因 的 检验 结果 。 通 过 观察 分 
2 吉 果 ， 可 以 看 出 dl.s 的 系数 值 是 非常 不 显著 的 。 具 体 体现 在 其 t 值 、F 值 以 及 P 值 上 ， 关 于 

-结果 的 详细 解读 方法 前 面 章节 中 多 有 提 及 ， 限 于 篇 幅 此 处 不 再 袭 述 , 所 以 ,可 以 比较 有 把 
We ee ss 


regress g 1.g dl.s 
Source ss af ms Number of obs = 26 
F( 2, 23) = 74.99 
Nodel | 4.03608946 2 2.01804473 Prob >F ~ 0.0000 
Residual | .618925925 23 .026909823 R-squared = 0.8670 
adj R-squared = 0.8555 
Toral | 4.65501539 。 25 .186200615 Root NSE ~ .16404 
g Coet. Std. Err. 上 pyltl [95% Conf. Interval] 
g 
1. .8465603 .1014616 = 8.34 0.000 .6366711 -1.05645 
Lp. .001763 .0008338 2.11 0.046 .0000381 .0034879 
cons | .2315428 .1468955 1.58 0.129 。 -.0723336 .5354193 
test dl.s=0 
(ny LD.s-0 
FT( 1 23) =- 4.47 
Prob > F = 0.0455 


图 15.43 ”城镇 失业 规模 是 城乡 收入 差距 的 格 兰 杰 因 


图 15.44 展示 的 是 城乡 收入 差距 是 否 是 城镇 失业 规模 的 格 兰 杰 因 的 检验 结果 。 通过 观察 分 
析 结 果 ， 可 以 看 出 1.g 的 系数 值 是 非常 不 显著 的 。 具 体 体现 在 其 t 值 、F 值 以 及 P 值 上 ， 关 于 
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担 地 得 出 结论 ， 城 乡 收入 差距 不 是 城镇 失业 规模 的 格 兰 杰 因 。 


ource ss ar m5 Se of EE Sa 
D.s Coef. Std. Err. 上 p>ltl [95% Conf. Interval] 
CD Lg-0 
Wes Rt 
图 15.44 城乡 收入 差距 不 是 城镇 失业 规模 的 格 兰 杰 因 
综 上 所 述 ， 只 有 城镇 失业 规模 是 城乡 收入 差距 的 格 兰 杰 因 ， 其 他 变量 之 间 均 不 存在 格 兰 
杰 因 果 关 系 。 当 然 ， 正如 前 面 讲 到 的 , 格 兰 杰 因果 关系 并 不 是 真正 的 变量 因果 关系 ,变量 实质 
的 因果 关系 依靠 有 关 理 论 或 者 实践 经 验 的 判断 。 格 兰 杰 因果 关系 反映 的 仅仅 是 一 种 预测 的 效 
果 , 起 到 一 种 辅助 的 作用 ， 所 以 ， 本 例 的 格 兰 杰 因 果 检 验 虽 然 没有 得 到 预想 的 结果 ,但 并 不 意 


味 着 模型 的 失败 。 读 者 们 可 以 尝试 增加 其 他 更 加 有 效 的 变量 继续 深入 研究 。 


15.4.5 ”案例 延伸 


在 前 面 的 格 兰 杰 因 果 关 系 检 验 的 过 程 中 ， 读 者 们 可 能 会 注意 到 我 们 使 用 的 被 假设 为 格 兰 
杰 因 的 自 变量 的 滞后 期 均 为 1 期 。 事实 上 可 以 多 试 几 期 , 具体 多 少 期 读者 可 以 根据 研究 的 实际 
需要 来 加 入 自己 的 判断 。 例 如 ， 在 检验 城乡 收入 差距 是 否 是 城镇 失业 规模 的 格 兰 杰 因 的 时 候 ， 
可 以 把 滞后 期 扩展 为 5 期 。 在 主 界面 的 “Command” 文 本 框 中 分 别 输 入 如 下 命令 。 


1. regress d.s dl.s 1.g 12.g 13.g 14.g 15.9g 


本 命令 则 在 以 d.s 为 因 变 量 ， 以 ds、Lg、12.g、13.g、14.g、15.g 为 自 变量 ， 进 行 最 小 二 乘 


回归 分 析 。 
2. test1.g=0 


本 命令 中 在 检验 变量 1.g 系数 的 显著 性 。 


3. test12.g=0 


本 命令 则 在 检验 变量 12.g 系数 的 显著 性 。 


324 


4. test13.g=0 
本 命令 虽 在 检验 变量 3.g 系数 的 显著 性 。 


5. test14.g=0 


本 命令 则 在 检验 变量 4.g 系数 的 显著 性 。 


6. test15.g=0 


本 命令 则 在 检验 变量 15.g 系数 的 显著 性 。 


按键 盘 上 的 回 车 键 进行 确认 ， 即 可 出 现 如 图 15.45 所 示 的 分 析 检 验 结果 。 


| regress d.s dl.s 1.9 12.9 13.9 14.9 15.9 


1 Stata 时 间 序列 分 析 


通过 观察 分 析 结果 ， 可 以 看 出 1g、12.g、 


某 公 司 自 1983 年 成 立 以 来 ， 主 要 的 经 营 指标 数据 包括 年 销售 收入 、 年 运营 成 本 、 母 公司 
考核 系数 等 ， 如 表 15.3 所 示 。 试 将 数据 整理 成 Stata 数据 文件 ， 并 进行 以 下 操作 。 

(1) 定义 时 间 序列 ， 并 绘制 各 时 间 序 列 变量 的 时 间 趋 势 图 ， 进 行 简要 分 析 。 

(2) 试 通过 单位 根 检验 的 方式 来 判断 相关 变量 ， 包 括 年 销售 收入 、 年 运营 成 本 、 母 公司 


Ea ss 二 Ee 
LA 16) = 2.93 
Nodel 17451.8741 6 2908.64569 Prob > 了 = 0.0402 
Residual 15909.2876 16 994.330472 R-squared = 0.5231 
hdi R-squared = 0.3443 
Toral | 33361.1617 22 1516.41644 Rooc NSE = 31.533 
D.s Coef. Std. Err. t P>1cl [95% Conf. Interval] 
. 
Lp. .3735399 .2580485 1.45 0.167 一 -1734985 .9205782 
9g 
L1. 29.72947 52.48465 0.57 0.579 -81.53302 140.992 
L2. 23.24441 63.76133 0.36 0.720 -111.9236 158.4124 
13 | 2191515 58.52375 -0.37 0713 -145.98 102.1497 
4 | -62.81455 62.25527 -1.01 0.326 。 -194.7898 69.16072 
L5. 26.73216 49.88799 0.54 0.599 -79.02566 132.49 
到 18.56089 32.80009 0.57 0.579 -50.9722 。 88.09398 
.test 工 .的 12.g=13.g=14.g-15.g=-0 
(1) L.g-I2.g= 0 
(2) Lg-L3.g=0 
(3) L.g -1L4.g = 0 
(4) L.g- Li5.g=0 
(5) Lg=0 
7( 5, 16) = 0.69 
brop > F -0.6376 
15.45 ”分析 结果 图 
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13.g、14.g、15.g 的 系数 值 都 是 非常 不 显著 的 。 具 
体 体 现在 其 t 值 、F 值 以 及 P 值 上 ， 关 于 这 一 结果 的 详细 解读 方法 前 面 章节 中 多 有 提 及 ， 限 于 
篇 幅 此 处 不 再 闭 述 ， 所以, 我 们 可 以 比较 有 把 握 地 得 出 结论 , 城乡 收入 差距 不 是 城镇 失业 规模 
的 格 兰 杰 因 。 其 他 变量 间 的 检验 是 类 似 的 ， 读 者 可 以 自己 尝试 分 析 。 


15.5 ”本 章 习 题 
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(3) 试 通过 EG-ADF 检验 、 迹 检验 等 两 种 协 整 检验 的 方式 来 判断 相关 变量 ， 包 括 年 销售 
收入 、 年 运营 成 本 、 母 公司 考核 系数 等 变量 是 否 存在 长 期 协 整 关系 。 

(4) 试 通过 格 兰 杰 因 果 检 验 的 方式 来 判断 相关 变量 ， 包 括 年 销售 收入 、 年 运营 成 本 、 母 
公司 考核 系数 变量 之 间 的 格 兰 杰 因果 关系 。 


表 15.3 某 公司 经 营 指标 数据 及 相关 变量 数据 


年 份 年 销售 收入 /万 元 年 运营 成 本 /万 元 母 公司 考核 系数 
1983 943.77 264.4 13 
1984 1101.69 1.24 
1985 484.28 0.98 
1986 814.63 1.24 
1987 1055.05 0.98 
1988 571.68 0.82 
2008 1821.55 223 
2009 1779.12 221 
2010 1785.18 2.22 
2011 1834.26 1.47 
2012 1832.07 1.51 
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第 16 章 stata 面板 数据 分 析 


面板 数据 (Panel Data) 又 被 称 为 平行 数据 ， 指 的 是 对 某 变 量 在 一 定时 间 段 内 持续 跟踪 观 
测 的 结果 。 面 板 数据 兼 具 了 横 截面 数据 和 时 间 序 列 数据 的 特点 ,， 既 有 模 截 面 维度 (在 同一 时 间 
段 内 有 多 个 观测 样本 ) ， 又 有 时 间 序 列 维度 (同一 样本 在 多 个 时 间 段 内 被 观测 到 ) 。 面 板 数据 
通常 样本 数量 相对 较 多 , 也 可 以 有 效 解 决 遗 漏 变 量 的 问题 , 还 可 以 提供 更 多 样本 动态 行为 的 信 
息 , 具有 横 截面 数据 和 时 间 序 列 数据 无 可 比拟 的 优势 。 根据 横 截面 维度 和 时 间 序 列 维度 相对 长 
度 的 大 小 , 面板 数据 被 区 分 为 长 面板 数据 和 短 面板 数据 。 下 面 就 来 一 一 介绍 这 两 种 面板 数据 分 
析 方 法 在 实例 中 的 应 用 。 


16.1 实例 一 一 一 短 面 板 数据 分 析 


16.1.1 短 面板 数据 分 析 的 功能 与 意义 


短 面板 数据 是 面板 数据 的 一 种 ， 其 主要 特征 是 横 截面 维度 比较 大 而 时 间 维 度 相对 较 小 ， 
或 者 说 , 同一 期 间 内 被 观测 的 个 体 数量 较 多 而 被 观测 的 期 间 较 少 。 短 面板 数据 分 析 方 法 包括 直 
接 最 小 二 乘 回归 分 析 、 固 定 效应 回归 分 析 、 随 机 效应 回归 分 析 、 组 间 估 计量 回归 分 析 等 多 种 。 
下 面 就 以 实例 的 方式 来 介绍 一 下 这 几 种 方法 的 具体 应 用 。 


16.1.2 ”相关 数据 来 源 


B=- 下 载 资源 :\videovchap16\… 


一 下 载 资源 :\sample\chap16\ 案 例 16.1.dta 


【 例 16.1】A 公司 是 一 家 销售 饮料 的 连锁 公司 ,经营 范围 遍布 全 国 20 个 省 市 ， 各 省 市 连 
锁 店 2008 一 2012 年 的 相关 销售 数据 (包括 销售 收入 、 促销 费用 以 及 创造 利润 等 数据 ) 如 表 16.1 
所 示 。 试 用 多 种 短 面 板 数 据 回 归 分 析 方 法 深入 研究 销售 量 和 促销 费用 对 创造 利润 的 影响 关系 。 


表 16.1 A 公司 各 省 市 连锁 店 销售 收入 、 促 销 费用 以 及 创造 利润 数据 (2008 一 2012 年 ) 


年 份 销售 收入 /万 元 促销 费用 /万 元 创造 利润 /万 元 地 区 
2008 256 13.28039 12.47652 北京 
2009 289 12.88284 12.1826 北京 
2010 321 12.86566 12.26754 北京 
2011 135 13.166 12.25672 | 北京 


2012 89 13.01277 12.21607 | 北京 
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年 份 促销 费用 /万 元 

2008 11.00874 9.236008 
2012 226.0475 10.77687 10.39666 
2008 229.2657 11.41421 10.47813 
2009 228.9225 11.10796 10.19802 
2010 229.2313 11.36674 10.47249 
2011 229.0406 11.1375 10.22485 
2012 229.1517 11.24112 10.30762 


16.1.3 ”Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 5 个 变量 ,分别 是 年 
份 、 销 售 收入 、 促 销 费 用 、 创 造 利润 以 及 地 区 。 我 们 把 年 份 变量 定义 为 year， 把 销售 收入 变量 
定义 为 sale， 把 促销 费用 变量 定义 为 cost， 把 创造 利润 变量 定义 为 profit， 把 地 区 变量 定义 为 
diqu。 变 量 类 型 及 长 度 采 取 系 统 默认 方式 ， 然 后 录入 相关 数据 。 相 关 操 作 在 第 1 章 中 已 有 详细 
讲述 。 录 入 完成 后 数据 如 图 16.1 所 示 。 
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口 oaotdho ed0- 医 Wiildal 0 WH 页 两 而 ll 
File Edit View Dats Tools 
~ IVariobles 9 
是 只 Filter variables here 
回 Name Label 
year 
msale 
cost 
Wprofit 


2 a009 2 2.06566 
13 0 3 139406 
20 6 13.0277 


climes 
本 Veriables [本 SP5 辐 


Properties 

日 Variables 
Name year 
Label 
Type int 
Format %9.0g 


Value label 
Notes 


Vars: 5 Order: Dataset Obs: 100 Filter Off Mode: Edit 


NUM_ 


图 16.1 案例 16.1 数据 
先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 骤 如 下 : 


进入 Stata 14.0， 打 开 相关 数据 文件 ， 弹 出 主 界面 。 
加 在 主 界面 的 “Command” 文 本 框 中 输入 如 下 命令 。 


list year sale cost profit: 本 命令 的 含义 是 对 4 个 变量 所 包含 的 样本 数据 进行 一 一 展示 ， 
以 便 简 单 直观 地 观测 出 数据 的 具体 特征 ， 为 深入 分 析 做 好 必要 准备 。 

encode diqu,gen(region): 因为 面板 数据 要 求 其 中 的 个 体 变 量 取 值 必须 为 整数 而 且 不 多 
许 有 重复 ， 所 以 需要 对 各 个 观测 样本 进行 有 序 编号 。 本 命令 旨 在 将 diqu 这 一 字符 串 
变量 转化 为 数值 型 变量 ， 以 便 进 行 下 一 步 操作 。 


NN 


Stata 面 板 数据 分 析 WN 
\\\\\NA\ \\ 
xtset region year: 本 命令 的 含义 是 对 面板 数据 进行 定义 ， 其 中 横 截 面 维度 变量 为 上 步 
生成 的 region， 时 间 序 列 变量 为 year。 

xtdes: 本 命令 旨 在 观测 面板 数据 的 结构 ， 考 察 面板 数据 特征 ， 为 后 续 分 析 做 好 必要 准 
备 。 

xtsum: 本 命令 旨 在 显示 面板 数据 组 内 、 组 间 以 及 整体 的 统计 指标 。 

xttab sale: 本 命令 旨 在 显示 “sale” 变 量 组 内 、 组 间 以 及 整体 的 分 布 频率 。 

xttab cost: 本 命令 虽 在 显示 “cost” 变 量 组 内 、 组 间 以 及 整体 的 分 布 频率 。 

xttab profit: 本 命令 旨 在 显示 “profit” 变 量 组 内 、 组 间 以 及 整体 的 分 布 频 率 。 

xtline sale: 本 命令 旨 在 对 每 个 个 体 显示 “sale” 变 量 的 时 间 序列 图 。 

xtline cost: 本 命令 旨 在 对 每 个 个 体 显 示 “cost” 变 量 的 时 间 序列 图 。 

xtline profit: 本 命令 旨 在 对 每 个 个 体 显示 “profit” 变量 的 时 间 序 列 图 。 

reg profit sale cost: 本 命令 的 含义 是 以 profit 为 因 变 量 ， 以 sale、cost 为 自 变 量 ， 进 行 
最 小 二 乘 回 归 分 析 。 

reg profit sale cost,vce(cluster region): 本 命令 的 含义 是 以 profit 为 因 变 量 ， 以 sale、cost 
为 自 变量 ， 并 使 用 以 “region” 为 聚 类 变量 的 聚 类 稳健 标准 差 ， 进 行 最 小 二 乘 回 归 分 
析 。 

xtreg profit sale cost,fe vce(cluster region): 本 命令 的 含义 是 以 profit 为 因 变 量 ， 以 sale、 
cost 为 自 变量 ， 并 使 用 以 “region” 为 聚 类 变量 的 聚 类 稳健 标准 差 ， 进 行 固定 效应 回 
归 分 析 。 

xtreg profit sale cost,fe: 本 命令 的 含义 是 以 profit 为 因 变 量 ， 以 sale、cost 为 自 变量 ， 
进行 固定 效应 回归 分 析 。 

estimates store fe: 本 命令 的 含义 是 存储 固定 效应 回归 分 析 的 估计 结果 

xi:xtreg profit sale cost iregion,vce(cluster region): 本 命令 旨 在 通过 构建 最 小 二 乘虚 
拟 变量 模型 来 分 析 固 定 效应 模型 是 否 优 于 最 小 二 乘 回 归 分 析 。 

tab year,gen(year): 本 命令 旨 在 创建 年 度 变量 的 多 个 虚拟 变量 。 

xtreg profit sale cost year2-year5,fe vce(cluster region): 本 命令 旨 在 通过 构建 双向 固定 效 
应 模型 来 检验 模型 中 是 否 应 该 包含 时 间 效 应 。 

test year2 year3 year4 year5: 本 命令 的 含义 是 在 上 步 回 归 的 基础 上 ， 通 过 测试 各 虚拟 
变量 的 系数 联合 显著 性 来 检验 是 否 应 该 在 模型 中 纳入 时 间 效 应 。 

xtreg profit sale cost,re vce(cluster region): 本 命令 的 含义 是 以 profit 为 因 变 量 ， 以 sale、 
cost 为 自 变 量 ， 并 使 用 以 “region” 为 聚 类 变量 的 聚 类 稳健 标准 差 ， 进 行 随机 效应 回 
归 分 析 。 

xttest0: 本 命令 的 含义 是 在 上 步 回 归 的 基础 上 ， 进 行 假设 检验 来 判断 随机 效应 模型 是 
否 优 于 最 小 二 乘 回归 模型 。 

xtreg profit sale cost,mle: 本 命令 的 含义 是 以 profit 为 因 变 量 ， 以 sale、cost 为 自 变量 ， 
并 使 用 最 大 似 然 估计 方法 ， 进 行 随机 效应 回归 分 析 。 

xtreg profit sale cost,be: 本 命令 的 含义 是 以 profit 为 因 变 量 ， 以 sale、cost 为 自 变量 ， 
并 使 用 组 间 估 计量 ， 进 行 组 间 估 计量 回归 分 析 。 


329 


Stata 统 


\ \ 


计 分 析 与 行业 应 用 案例 详解 


(第 2) NN 


园 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 16.2~ 图 16.25 所 示 的 分 析 结 果 。 
图 16.2 是 对 数据 进行 展示 的 结果 。 它 的 目的 是 通过 对 变量 所 包含 的 样本 数据 进行 一 


示 ， 以 便 简 单 直观 地 观测 出 数据 的 具体 特征 ， 为 深入 分 析 做 好 必要 准备 。 


从 如 图 16.2 所 示 的 分 析 结 果 中 可 以 看 出 ， 


TI To al ot FT 5 T 5017 29 979 T7357 0 6637 
B31. | 2008 195 11.32298 9.786392 
year sale cost profit || |32. | 2oos 190 10.7579 9.720165 
3. | 2010 196 11.19272 9.09940 
1. | 2008 256 13.28039 19.47652 || |34. | 2011 191 11.32055 9.804219 
2. | 2009 289 12.88284 12.1826 || |3s. | 2012 223.664 10.86284 10.06305 
3. | solo 321 12.06566 12.26754 
4. | 2011 135 13.165 12.25672 || |36. | 2008 230.2526 11.35158 。 10.38807 
5. | zolz 89 13.01271 12.21607 || |37. | 200s 230.4395 11.65529 10.57132 
B36. | 2010 230.1745 11.30836 10.52889 
5. | 2008 159 11.00874 9.236008 || |39. | 2011 230.3779 11.48555 。 10.59037 
7, | 2009 138 11.28099 9.401787 || |30. | 2012 230.4235 11.59451 10.56721 
8. | 2010 229 11.38623 9.612467 
9. | 2011 223.8923 11.07906 9.388487 || |41. | 2008 224.4761 10.83762 10.16969 
10, | 2012 224.4146 11.61005 9. ja2. | 2009 224.5877 。 10.9682 10.13896 
la3. | 2010 224.7289 .18164 
11, | 2008 247.6943 13.28039 12.47652 || |33. | zoll 224.373 10.77096 
12, | 2009 338 12.86566 12.26754 || |35. | 2012 224.7235 11.10796 10.17884 
13, | 2010 339 13.165 。 12.25672 
14，| 2011 346 13.01277 12.21607 || |46. | 2008 228.9225 11.10796 10.19802 
15. | 2012 221 12.88284 12.1826 || |47. | 200% 229.2313 11.36674 10.47249 
a6. | 2010 229.2657 11.41421 10.47813 
16, | 2008 225.8885 11.33976 9.873029 || |a9. | 2011 229.1517 11.24112 10.30762 
17, | 2009 225.7411 11.17325 50. | 2012 229.0406 11.1375 10.22485 
18, | 2010 226.0703 11.46163 
19, | 2011 225.9849 11.42737 51. | 2008 224.4039 11.38623 9.612467 
20, | 2012 225.4703 11,12873 9.864227 || |s2. | 2009 224.2034 11.28099 
ls3. | 2010 223.8923 11.07906 
21. | 200n8 223.664 10.86284 10.06305 || |s4. | 2011 224.4146 11.61005 9.714746 
22, | 2009 223.3596 10.7579 9.720165 || |s5. | 2012 223.523%1 11.00074 9.236008 
23. | aoto 189 11.32298 
24. | 2011 194 11.32055 ss. | 2008 226.2307 10.91509 10.51732 
25, | 2012 191 。 11.19272 |s7，| 2009 226.1334 10.80771 10.43588 
se | 2g010 226.4084 11.14041 10.55451 
256. | 2008 229,834 11.60368 10.15619 || |ss9. | 2011 226.3114 11.0021 。 10.4631 
27. | 2009 229.5091 11.48143 10.18036 || |s0. | 2012 226.0475 10.77687 10.39566 
28, | 2010 229.6875 11.51192 10.05277 
229.9539 11.86005 10.35711 || |61. | 2008 230.4395 11.65529 10.57132 


展示 数据 


数据 的 总 体质 量 还 是 可 以 的 ,没有 极端 异常 值 ， 


变量 间 的 量 纲 差距 也 是 可 以 接受 的 ， 可 以 进入 下 一 步 的 分 析 。 


图 16.3 是 将 diqu 这 一 字符 串 变 量 转化 为 数值 型 变量 region 的 结果 。 选 择 “Data”|“Data 
Editor”|“Data Editor(Browse) ”命令 , 进入 数据 查看 界面 , 可 以 看 到 如 图 16.3 所 示 的 变量 region 


的 相关 数据 。 


图 16.4 为 对 面板 数据 进行 定义 的 结果 ， 其 中 横 截面 维度 变量 为 上 步 生 成 的 region， 时 间 


序列 变量 为 year。 
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16.3 region 的 相关 数据 


sale 

as€ 

209 

EE 

135 

和 
226.4004 
226.3114 
226.2307 
226.1334 
0475 
234.4039 
224.2034 
233,0923 
234.4446 
229.8254 
2326.2367 
226.1334 
226,4094 
EA 
26.0475 
230.4335 
230,.2526 
220.1745 
230.4238 
290.3779 
0 

199 

199 


Cost 
3.20079 
23082984 
8656 
6 
33-01277 
33.14041 
33.0023 
30.91503 
30.80773 
20.77647 
21.30623 
411.28033 
31.07906 
$1.61005 
33.00974 
20.91509 
20.80774 
4.14044 
33.0033 
20.77687 
41.65529 
HIS158 
44.70076 
1.59454 
1.48555 
33.17325 
33.77976 
2.46163 


profit 
22.47652 
212.2026 
22.26754 
22.25672 
2241607 
30.55453 
10.4633 
20.51732 
047544 
20.79666 
9.612467 
$.401787 
9,388497 
9.714746 
323600 
20.51732 
410.4354# 
20.55453 
30.4693 
20.396¢¢ 
20.57132 
230,18897 
20.52049 
20.56724 
20.59037 
9.934502 
3.877023 
9.853772 


xtset region year 
panel variable: region (strongly balanced) 
time variable: year, 2008 to 2012 
delta: 1 unit 


图 16.4 对 面板 数据 进行 定义 


从 图 16.4 中 可 以 看 出 这 是 一 个 平衡 的 面板 数据 。 
图 16.5 是 面板 数据 结构 的 结果 。 


ET 


Fegion: 1, 2, ..., 
ear: 2008, 2009, ..., 


20 


2012 


Delratyear) = 1 unit 


Span (year) 


= 5 periods 


(region*year uniquely identifies each observation) 


Distribution of T_i: mii 


Freq. Percent 


n St 25% SO% 75% 95% 
5 5 5 5 5 


Cum. | Pattern 


20 100.00 100. 


00 | 11111 


20 100.00 


16.5 面板 数据 结构 


从 图 16.5 可 以 看 出 该 面板 数据 的 横 截面 维度 region 为 1~20 共 20 个 取 值 ， 时 间 序 列 维度 
year 为 2008~2012 共 5 个 取 值 ， 属 于 短 面 板 数据 ， 而 且 观 测 样本 在 时 间 上 的 分 布 也 非常 均匀 。 

图 16.6 是 面板 数据 组 内 、 组 间 以 及 整体 的 统计 指标 的 结果 。 

在 短 面板 数据 中 ， 同 一 时 间 段 内 的 不 同 观测 样本 构成 一 个 组 。 从 图 16.6 中 可 以 看 出 ， 变 
量 year 的 组 间 标 准 差 是 0， 因 为 不 同 组 的 这 一 变量 取 值 完全 相同 ， 同 时 变量 region 的 组 内 标 
准 差 也 为 0， 因 为 分 布 在 同一 组 的 数据 属于 同一 个 地 区 。 
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Ce NAN 


VAN 
\\\ 和 \ 

xtsum 

variable mean std. Dev. nin Hax | observations 

year overall 2010 = 1.421338 2008 2012 N=- 00 
betueen o 2010 2010 20 
within 1.421338 2008 2012 s 

sale overall | 225.0378 32.75807 a9 346 N= 00 
between 20.83152 194.8614 。 298.3389 20 
within 25.62562 。 96.03781 。 328.0378 5 

ost overall | 11.48361 .6108847 10.7579 13.28039 100 
between -6012933 10.92844 13.04153 20 
vithin .1619716 11.15011 11.82065 § 

profit overall | 10.33686 .7258455 9.236008 12.47652 N= 00 
between .7329161 9.470699 12.27989 20 
vithin .1067208 10.10217 。 10.5809 5 

iqu overall , 有 N= o 
between n= o 
within : 3 T- 

region overall 10.5 5.795331 . 20 N= 00 
betueen 5.91608 1 20 n= 20 
within o 10.5 10.5 T= 5 


图 16.6 面板 数据 统计 指标 
图 16.7 是 “sale” 变 量 组 内 、 组 间 以 及 整体 的 分 布 频率 的 结果 。 


Overall Fervean Wichin 
Preq. Percent Freq. Percent percene | 326-5775 和 和 
Em ee 二 二 229 1 1.00 . 5.00 20.00 
135 1 1.00 1 so0 20 oo | | 229.0406 2 2.00 2 10.00 20.00 
138 1 1.00 1 5.00 20.00 | | 229.1517 2 2.00 2 10.00 20.00 
159 1 1.00 1 5.00 20.00 | | 229.2313 a 2.00 2 10.00 20.00 
3 . je 3 i 229.2657 2.00 2 10.00 20.00 
ee 2 | | 229.s091 2 2.00 2 10.00 20.00 
194 1.00 1 5.00 20.00 | | 229.6875 2 2.00 2 10.00 20.00 
195 1 1.00 1 5.00 20.00 229.834 2 2.00 2 10.00 20.00 
196 1 1.00 1 5-00 20.00 | | 229.9492 2 2.00 2 10.00 20.00 
3 | 0 229.9539 和 2.00 Ei 10.00 20.00 
和 i ” se 0.00 | | 230.1745 2 2.00 2 10.00 20.00 
2 SS i 党 二 训 20.00 | | 230.2526 2 2.00 2 10.00 20.00 
223.3596 x 1.00 1 5.00 20.00 | | 230.3779 2 2.00 2 10.00 20.00 
223.5251 1 1.00 1 5.00 20.00 | | 230.4235 2 2.00 2 10.00 20.00 
we Ee i 和 i 和 230.4395 2 2.00 2 10.00 20.00 
223.8923 2 2.00 2 900 20.00 0 了 0 a js 
224.2034 1 1.00 1 5.00 20.00 
i 2 -Rs -A Si 231.233 2 2.00 2 10.00 20.00 
224.4039 1 1.00 5.00 20.00 | | 231.4499 2 2.00 2 10.00 20.00 
224.4146 2 2.00 2 0.00 20.00 | | 231.6112 a 2.00 2 10.00 20.00 
a > be pee 20.08 | | 231.7159 2 2.00 2 10.00 20.00 
| 2 Fs 20.00 | | 247.6943 和 1.00 5.00 20.00 
224.7235 2 2.00 2 10.00 20.00 
224.7289 2 2.00 2 10.00 20.00 Dg ek 本 SW 2 
225.4703 和 1.00 1 5.00 20.00 289 1 1.00 1 5.00 20.00 
225.7411 1 1.00 5.00 20.00 321 1 1.00 和 5.00 20.00 
225,8885 1 1.00 1 5.00 20.00 338 1 1.00 1 5.00 20.00 
325.04 1 1.00 1 9.00 20.00 pS 二 3 二 二 
226.0475 2 2.00 2 10.00 20.00 
226.0703 工 1.00 1 5.00 20.00 所 Er a eh pee 
226.1334 2 2.00 2 10.00 20.00 
226.2307 2 2.00 2 10.00 20.00 Toral 100 。 100.00 98 。 490.00 20.41 
226.3114 2 2.00 2 10.00 20.00 tn = 20) 
226.4064 2 2.00 2 10.00 20.00 


图 16.7 “sale” 变 量 组 内 、 组 间 以 及 整体 的 分 布 频率 
图 16.8 是 “cost” 变 量 组 内 、 组 间 以 及 整体 的 分 布 频率 的 结果 。 
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第 16 章 ”Stata 面 板 数 据 分 析 


“cost” 变 量 组 内 、 
“profit” 变 量 组 内 、 组 间 以 及 整体 的 分 布 频 


组 间 以 及 整体 的 分 布 频率 
率 的 结果 。 


\\ \ \\A\ 
11.48555 2 2.00 2 10.00 20.00 
11.51192 2 2.00 2 10.00 20.00 
11.59451 2.00 2 10.0 20.00 
11.60368 2 2.00 2 10.00 20.00 
11.61005 2 2.00 2 10.00 20.00 
11.65529 2 2.00 2 10.00 20.00 
11.6994 2 2.00 2 10.00 20.00 
11.73527 2 2.00 2 10.00 20.00 
11.73847 2 2.00 2 10.00 20.00 
11.82188 2 2.00 2 10.00 20.00 
11.86005 2 2.00 2 10.00 20.00 
11.89614 2.00 2 10.00 20.00 
12.09234 2 2.00 2 10.00 20.00 
12.86566 2 2.00 2 10.0 20.00 
12.88284 2 2.00 2 10.0 20.00 
13.01277 2 2.00 2 10.00 20.00 
13.166 2 2.00 2 10.00 20.00 
13.28039 a 2.00 2 10.00 20.00 
Total 100 100.00 100 500.00 20.00 
(n= 20) 


| 2 

9.873029 2 2.00 2 10.00 20.00 ug 人 工 和 a 

9.914922 2 2.00 2 10.00 20.00 10.47249 2 2.00 2 10.00 20,00 

10.15891 2 2.00 3 10.00 20.00 旨 | 和 38:90 各 :本 

10.16969 2 2.00 2 10.00 20.00 2 2.00 2 10.00 20,00 

10.17884 3 2.00 站 10.00 20.00 2 2.00 2 10.00 20,00 
图 16.9 “profit” 变 量 组 内 、 组 间 以 及 整体 的 分 布 频率 


图 16.10 是 对 每 个 个 体 显 示 “sale” 变 量 的 时 间 序 列 图 的 结果 。 
从 图 16.10 可 以 看 出 ， 不 同 地 区 的 销售 收入 的 时 间 趋 势 是 不 一 致 的 ， 有 的 地 区 变化 非常 平 
有 的 地 区 先 升 后 降 ， 有 的 地 区 先 降 后 升 。 
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图 16.10 ”对 每 个 个 体 显示 “sale” 变 量 的 时 间 序 列 图 


图 16.11 是 对 每 个 个 体 显示 “cost” 变 量 的 时 间 序 列 图 的 结果 。 
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图 16.11 对 每 个 个 体 显示 “cost” 变 量 的 时 间 序 列 图 


从 图 16.11 可 以 看 出 ， 不 同 地 区 的 促销 成 本 的 时 间 趋 势 是 不 一 致 的 ， 有 的 地 区 变化 非常 平 


稳 ， 有 的 地 区 先 升 后 降 ， 有 的 地 区 先 降 后 升 。 


图 16.12 是 对 每 个 个 体 显示 “profit” 变 量 的 时 间 序 列 图 的 结果 。 
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图 16.12 ”对 每 个 个 体 显示 “profit” 变 量 的 时 间 序 列 图 


从 图 16.12 可 以 看 出 , 不 同 地 区 创造 利润 的 时 间 趋 势 是 不 一 致 的 , 有 的 地 区 变化 非常 平稳 ， 
有 的 地 区 先 升 后 降 ， 有 的 地 区 先 降 后 升 。 


图 


16.13 是 以 profit 为 因 变 量 ， 以 sale、cost 为 自 变量 ， 进 行 最 小 二 乘 回归 分 析 的 结果 。 


，reg profit sale cost 


Source SS ns Number of obs = 100 
P( 2， 97) = 89.51 

Model 33.828923 16.9144615 Prob > 了 = 0.0000 
Residual | 18.3293904 .188962787 R-aquared = 0.6486 
adj R-squared = 0.6413 
Toral | 52.1583134 .526851651 Root NSE = .4347 


profit Coef. Std. Err. [95s Conf, Interval] 


sale .0041186 -= .0014083 i .0013235 = .0069138 
cost .862813 。 .0755204 .7129259 1.0127 
cons | -.4981994 .823319 a 要 -2.13226 = 1.135861 


图 16.13 ”普通 最 小 二 乘 回归 分 析 


从 上 述 分 析 结果 中 可 以 得 到 很 多 信息 。 可 以 看 出 共有 100 个 样本 参与 了 分 析 ， 模 型 的 上 
值 (2, 97) = 89.51, P 值 (Prob > F) = 0.0000， 说 明 模型 整体 上 是 很 显著 的 。 模 型 的 可 决 系数 
(R-squared) 为 0.6486， 模 型 修正 的 可 决 系数 (Adj R-squared) 为 0.6413， 说 明 模 型 的 解释 能 
力也 是 非常 好 的 。 

变量 sale 的 系数 标准 误 是 0.0014083, {t 值 为 2.92, P 值 为 0.004, 系数 是 非常 显著 的 , 95% 


的 置信 


区 间 为 [0.0013235，0.0069138]。 变 量 cost 的 系数 标准 误 是 0.0755204，t 值 为 11.42，P 


值 为 0.000， 系 数 是 非常 显著 的 ，95% 的 置信 区 间 为 [0.7129259, 1.0127]。 常 数 项 的 系数 标准 误 
是 0.823319,t 值 为 -0.61,P 值 为 0.547, 系数 是 不 显著 的 ,95% 的 置信 区 间 为 [-2.13226,1.135861]。 
从 上 述 分 析 结 果 可 以 得 到 最 小 二 乘 模型 的 回归 方程 是 : 


profit = 0.0041186*sale+0.862813*cost -0.4981994 
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释 能 力 都 很 不 错 。 得 到 的 结论 是 该 单位 的 创造 利润 情况 与 销售 量 和 促销 费用 等 都 是 显著 呈正 向 
变化 的 。 

图 16.14 是 以 profit 为 因 变量 ， 以 sale、cost 为 自 变量 ， 并 使 用 以 “region” 为 聚 类 变量 的 
聚 类 稳健 标准 差 ， 进 行 最 小 二 乘 回归 分 析 的 结果 。 


reg profit sale costvvcetcluster reqion} 


Linear regression Number of cbs = 100 
Et 
Prob > 了 = 0.0000 
R-squared = 0.6486 
Root NSE = .4347 


(std. Err. adjusted for 20 clusters in region) 


Robust 
profic Coef. Std. Err. 上 pylel [95% Conf, -nterval] 
sale .0041186 .0027939 1.47 0.157  -.0017291 .0099664 
cost .862813 。 .2199263 3.92 ”0.001 .402502 1.323124 
cons | -.4981994 1.986387 -0.25 0.805 -4.655755 3.659356 


16.14 以 “region” 为 聚 类 变量 的 聚 类 稳健 标准 差 进行 最 小 二 乘 回归 分 析 
从 图 16.14 中 可 以 看 出 ， 使 用 以 “region” 为 聚 类 变量 的 聚 类 稳健 标准 差 进行 最 小 二 乘 回归 分 
析 的 结果 与 普通 最 小 二 乘 回归 分 析 得 到 的 结果 类 似 ， 只 是 sale 变量 系数 的 显著 性 有 所 下 降 。 
图 16.15 是 以 profit 为 因 变 量 ， 以 sale、cost 为 自 变 量 ， 并 使 用 以 “region” 为 聚 类 变量 的 
聚 类 稳健 标准 差 ， 进 行 固 定 效应 回归 分 析 的 结果 。 


，xtreg profit sale cost,fe vce(cluster region) 


rixea-errects (vithin) regression Humber of obs = 100 
Group variable: region Humber of groups = 20 
RR-sq: vithin = 0.3637 obs per group: min = 5 
betveen = 0.6619 avg = 5.0 
overall = 0.6397 max = 5 

F (2,19) = 10.92 

eorr tu i, wb) = 0.6171 Prob > = 0.0007 


(Std. Err. adjusted for 20 clusters in region) 


Robust 
profit Coef. Std. Err. |] [95s Conf. Iaterval] 
sale 0008134 .000416 1.96 0.065 。 -.0000573 .001684 
cosc .3855897 .0985735 3.91 0.001 .179273 = .5919063 
eons | 9.723859 1.122047 9.10 0.000 3.377383 -5.074326 
sigma u | .55435378 
sigma e | .09590366 
rho | .97094045 (fraction of variance due to ui 


16.15 ”进行 固定 效应 回归 分 析 


从 图 16.15 中 可 以 看 到 共有 20 组 , 每 组 5 个 , 共有 100 个 样本 参与 了 固定 效应 回归 分 析 。 
模型 的 F 值 是 10.92, 显著 性 P 值 为 0.0007, 模型 是 非常 显著 的 。 模 型 组 内 R 方 是 0.3637(Cwithin 
= 0.3637), 说 明 单位 内 解释 的 变化 比例 是 36.37%。 模 型 组 间 R 方 是 0.6619(between = 0.6619 )， 
说 明 单位 间 解 释 的 变化 比例 是 66.19%。 模 型 总 体 RR 方 是 0.6397 (overall = 0.6397) ， 说 明 总 的 解 
释 变 化 比例 是 63.97%。 模 型 的 解释 能 力 还 是 可 以 接受 的 ,观察 模型 中 各 个 变量 系数 的 显著 性 P 值 ， 
发 现 也 都 是 比较 显著 的 。 此 外 ， 观 察 图 16.15 中 的 最 后 一 行 ，rho=0.97094045， 说 明 复合 扰动 项 的 
方差 主要 来 自 个 体 效 应 而 不 是 时 间 效应 的 变动 ， 这 一 点 在 后 面 的 分 析 中 也 可 以 得 到 验证 。 
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第 16 章 ”Stata 面 板 
WA TR 


、 re 人 


+ xtreg profit sale cost,fe 


Pixed-effects (vithin) regression Number of obs 
Group variable: region Number of groups 


R-sq: vithin = 0.3637 Obs per group: min 
betveen = 0.6619 avg 
overall = 0.6397 max = 


F (2,78) 
corrtu i, wh) = 0.6171 Prob > 了 


profit Coef. Std. Err. t py>lcl [95% Conf. Interval] 


sale .0008134 。 .0003772 2.16 0.034 .0000625 .0015643 
cost .3855897 。 .0596713 6.46 0.000 .2667932 .5043862 
_cons 5.725855 .696736 8.22 0.000 4.33876 。 7.112949 


aligna_u | .55435378 
sigma e | .09590366 
rho | .97094045 (fraction of variance due co u_1) 


FP test that all u_io: Fl19, 78) = 100.78 Prob > F ~ 0.0000 


图 16.16 普通 固定 效应 回归 分 析 


本 结果 相对 于 使 用 以 “region” 为 聚 类 变量 的 聚 类 稳健 标准 差 进行 固定 :效应 回归 分 析 的 结 
果 在 变量 系数 显著 性 上 有 所 提高 。 此 外 ， 在 图 16.16 的 最 下 面 一 行 ， 可 以 看 到 “ (F test that all 
u_i=0: F(19,78)=100.78 Prob>F=0.0000) ” dd gehen 己 的 截 距 项 
的 原 假设 , 所 以 我 们 可 以 初步 认为 每 个 个 体 用 于 与 众 不 同 的 截 距 项 , 也 就 是 说 固定 效应 模型 是 
在 一 定 程度 上 优 于 普通 最 小 二 乘 回归 模型 的 。 这 一 点 也 在 后 续 的 深入 分 析 中 得 到 了 验证 。 

图 16.17 存储 的 是 固定 效应 回归 分 析 估 计 结 果 。 选 择 “Data”|“Data Editor”|“Data 
Editor(Browse)” 命 令 ， 人 可 以 看 到 如 图 16.17 | est_fe 的 相关 数据 。 
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' . 1 . 站 nl 
. . . 日 o , 
四 . . 2 | 
1 . . . . 1 
' 上 . . 日 
日 . 1 . 日 于 
' . . D 站 村 
' . . . a 3 
1 . . . 日 四 
日 上 . . 日 
. . . . 了 
' . . s 日 全 
' . . . 1 于 
4 . . . 日 下 
. 上 . . . » 
. . 1 . 日 1 
. . . 上 9 1 
. . . a | 
. . 日 1 
上 . . o 三 
. . » 
. . 日 
。 1 1 
. . 日 于 
上 日 » 
. . 1 o " 
. . 大， 


16.17 固定 效应 回归 分 析 估计 结果 


图 16.18 是 构建 最 小 二 乘虚 拟 变量 模型 来 分 析 固定 效应 模型 是 否 优 于 最 小 二 乘 回归 分 析 
的 分 析 结 果 。 
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.073893 1 . 14.286323 


图 16.18 构建 最 小 二 乘虚 拟 变 量 模 型 


从 图 16.18 中 可 以 看 出 ， 大 多 数 个 体 虚拟 变量 的 显著 性 P 值 都 是 小 于 0.05 的 ， 所 以 我 们 
可 以 非常 有 把 握 地 认为 可 以 拒绝 “所 有 个 体 的 虚拟 变量 皆 为 0” 的 原 假 设 ， 也 就 是 说 固定 效应 
模型 是 优 于 普通 最 小 二 乘 回 归 模型 的 。 

图 16.19 是 创建 年 度 变量 的 多 个 虚拟 变量 的 结果 。 选 择 “Data”|“Data Editor”|“Data 
Editor(Browse) ”命令 , 进入 数据 查看 界面 , 可 以 看 到 如 图 16.19 所 示 的 变量 yearl~years 的 相关 数据 。 


oe ET 六 er 
pra a 


16.19 ”创建 年 度 变量 的 多 个 虚拟 变量 
图 16.20 是 构建 双向 固定 效应 模型 的 分 析 结 果 。 
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~ xtreg profit sale cost year2-year5,fe vcetcluster region) 


Number of obs = 100 
Number of groups = 20 

R-aq: within = 0.3714 Obs per group: min = 5 
betveen = 0.6628 avg = 5.0 
overall = 0.6397 max = 5 
F(6,19) = 6.27 

corrlu i, wh) = 0.6203 Prob > 了 = 0.0009 


(Std. Err. adjusted for 20 clusters in region) 


Robust 
profit Coef. Std. Err. | [95% Conf. Interval] 
sale .000841 。 .0004133 2.04 0.056 一 .000024 .001706 
cost .3796737 .1023562 3.71 0.001 .1654398 .5939076 
year2 | -.0227204 .0365359 -0.62 0.541 ~.099191 .0537502 
year3 | -.0020958 .0370119 -0.06 0.955 ~-.0795625 .075371 
year4 -.013553 .035162 -0.39 0.704 。 -.0871479 .0600418 
years .0018696 。 .0390425 0.05 0.962 。 -.0798473 .0835864 
_cons 5.794876 1.163568 4.98 0.000 3.3595 8.230251 
sigma u | .55623368 
=igma_e | .09786431 
rho | .96997422 (fraction of variance due to u_1) 


16.20 ”构建 双向 固定 效应 模型 


从 图 16.20 中 可 以 看 出 ， 全 部 year 虚拟 变量 的 显著 性 P 值 都 是 远大 于 0.05 的 ， 所 以 我 们 
可 以 初步 认为 模型 中 不 应 包含 时 间 效 应 。 值 得 说 明 的 是 , 在 构建 双向 固定 效应 模型 时 并 没有 把 
yearl 列 入 进去 ， 这 是 因为 yearl 被 视 为 基期 ， 也 就 是 模型 中 的 常数 项 。 

图 16.21 是 在 上 步 回 归 的 基础 上 , 通过 测试 各 虚拟 变量 的 系数 联合 显著 性 来 检验 是 否 应 该 
在 模型 中 纳入 时 间 效 应 的 检验 结果 。 


，test year2 year3 yeard year5 


(1) year2 = 0 
(2) year3 = 0 
(3) yeara = 0 
(4) year5 = 0 


Fl 4， 19) "。 0.30 
Prob >F = 0.8774 


图 16.21 测试 各 虚拟 变量 系数 联合 显著 性 

从 图 16.21 中 可 以 看 出 , 各 变量 系数 的 联合 显著 性 是 非常 差 的 , 接受 了 没有 时 间 效 应 的 初 
始 假设 ， 所 以 我 们 进一步 验证 了 模型 中 不 必 包 含 时 间 效 应 项 的 结论 。 

图 16.22 是 以 profit 为 因 变 量 ， 以 sale、cost 为 自 变 量 ， 并 使 用 以 “region” 为 聚 类 变量 的 
聚 类 稳健 标准 差 ， 进 行 随机 效应 回归 分 析 的 结果 。 

从 图 16.22 可 以 看 出 ， 随 机 效应 回归 分 析 的 结果 与 固定 效应 回归 分 析 的 结果 大 同 小 异 ,只 
是 部 分 变量 的 显著 性 水 平 得 到 了 进一步 的 提高 。 

图 16.23 是 在 上 步 回归 的 基础 上 , 进行 假设 检验 来 判断 随机 效应 模型 是 否 优 于 最 小 二 乘 
归 模 型 的 结果 。 

从 图 16.23 可 以 看 出 , 假设 检验 非常 显著 地 拒绝 了 不 存在 个 体 随 机 效应 的 原 假 设 , 也 就 是 
说 ， 随 机 效应 模型 是 在 一 定 程度 上 优 于 普通 最 小 二 乘 回 归 分 析 模 型 的 。 


回 
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ardor eree-s cts 


与 行业 应 用 案例 
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[Group variapie: region 


[ea vithin ~ 0.3637 
ecween - 0.6615 
verall = 0.6394 


eorr ta, 


\\ 


regression 


cab > chl2 anne 


(Bcd. Err。adjuared sor 20 cluorers in cegion) 


ee 


opuac 
sta Eee- 


Plz) [9ss Cons. Inrerval] 


sle 


.000941 
4352322 
4.097379 


0004114 
-1030900 
1.115396 


9.022 .0001354 .0017467 
9000 .2515942 .6500701 
0.000 2.711243 。 7.093515 


igws_u 
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ro 


.42131364 
93073713 


{rection of warlance due ro 0 
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图 16.22 进行 随机 效应 回归 分 析 


pcevser ana pagan Lagrangian mulciplier cest foc random erteccs 


图 16.24 是 以 profit 为 因 变量 ， 


机 效应 回归 分 析 的 结果 。 


Estinated results; 


prorie 


u 


Varly) = 0 


profit[region,t] = bh + uregicnl + elregion,t) 


sd ~ oqrt(ver) 


.7230455 
0959037 
.4213136 


chibar2 (01) - 150.97 
prob > chibar2 = 0.0000 


图 16.23 ”进行 假设 检验 


teeg Drofit sale cost mie 


Facting conatans-only rodel: 

1og ltxelthood = ~.34489193 
log Likelikhood = 17,020843 
log likelibood ~ 10,904008 
log lixelikood = 19.202898 
loa likelikood - 19.210547 
1og likelihoog = 19.218613 


eerarlon nx 
Leeratior 1: 
Toeration 2 
Eeerarior 3: 
eareston 4: 
Teraion s: 


icting tall wodel: 

Log likelihood = 7.9773037 
log likelikood ~ 19.164908 
log ixelibocg = 38.281199 
Log likelihood = 42.70826 
og likelihood ~ 43,214307 
Log Lixelikood = 43.229971 


earseton Or 


loa li 


hocd ~ 43,225579 


hamden-etsscto WL reqresoion 


以 sale、cost 为 自 变量 ， 并 使 用 最 大 似 然 估 计 方 法 进行 随 


Narer cz ob ~ 00 


Br ou variable: region - 20 
Rondon cts=cra ai - Ganssian Gea pez oroup: al 5 
5 

Le cha242) -ao 

jos ikelihosd ~ 43.225570 co > chi2 -oo000 
profit cuet， ged, Per = Przlzl [es conf，nservall 

sale | .oo0g90s .000374 2.40 0.016 .0001655 .0016315 

ose | Laan5386 0388545 -735 e000 7286 。 “3479913 

_soa | 。 5.166409 .6975167 IA1 0-008 。 3.799301 。 6.533516 
sigan | .5208324 .0855846 274212 .87365 
tia_e .095091 。 .007579 .0013305 。 .1111606 


[aseltpooa-rario cest of stomm_ur0: chtbarztoD = 200.37 Frohz=chlarz 


图 16.24 ”使 用 最 大 似 然 估计 方法 进行 随机 效应 回归 分 析 
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“region” 为 聚 类 变量 的 聚 类 稳健 标准 差 的 随机 效应 回归 分 析 的 结果 大 同 小 异 ， 只 是 部 分 变量 
的 显著 性 水 平 得 到 了 进一步 的 提高 。 

图 16.25 是 以 profit 为 因 变量 ， 以 sale、cost 为 自 变 量 ， 并 使 用 组 间 估 计量 ， 进 行 组 间 估 
计量 回归 分 析 的 结果 。 


. xtreg profit sale cost,be 


Becween regression (regression on group means) Number of obs = 100 
Group variable: region Number of groups = 20 
0.1532 Obs per group: min = 5 

0.7013 avg = 5.0 

0.5968 max = 5 

F(2,17) = 19.95 

atu_i + avgle_1.))= .4234911 Prob > 了 = 0.0000 
profit Coef. Std. Err. 上 pylel [95% Conf. Interval] 

sale -0104226 。 .0056309 1.85 0.082 。 -.0014576 .0223028 

cost .7736021 。 .1950808 3.97 0.001 .3620176 。 1.185187 

cons | -.8923599 1.857947 -0.48 0.637 。 -4.812285 3.027565 


i 
图 16.25 ”使 用 组 间 估 计量 进行 组 间 估 计量 回归 分 析 
从 图 16.25 可 以 看 出 ， 使 用 组 间 估计 量 进 行 回归 分 析 的 结果 较 固定 效应 模型 、 随 机 效应 模 
型 在 模型 的 解释 能 力 以 及 变量 系数 的 显著 性 上 都 有 所 降低 。 


16.1.5 “案例 延伸 


上 述 的 Stata 命令 比较 简洁 ， 分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 

延伸 : 关于 模型 的 选择 问题 

在 前 面 的 分 析 过 程 部 分 ， 我们 使 用 各 种 分 析 方 法 对 本 节 涉 及 的 案例 进行 了 详细 具体 的 分 
析 。 读者 们 看 到 众多 的 分 析 方 法 时 可 能 会 有 眼花 练 乱 的 感觉 , 那么 我 们 最 终 应 该 选择 哪 种 分 析 
方法 来 构建 模型 呢 ? 答案 当然 是 具体 问题 具体 分 析 , 然 而 我 们 也 有 统计 方法 和 统计 经 验 作 为 决 
策 参 考 。 例 如 , 在 本 例 中 , 已 经 证 明了 固定 效应 模型 和 随机 效应 模型 都 要 好 于 普通 最 小 二 乘 回 
归 模 型 。 而 对 于 组 间 估 计量 模型 来 说 ， 它 通常 用 于 数据 质量 不 好 的 时 候 ， 而 且 会 损失 较 多 的 信 
息 , 所 以 很 多 时 候 我 们 仅仅 将 其 作为 一 种 对 照 的 估计 方法 。 那 么 剩 下 的 问题 就 是 选择 固定 效应 
模型 还 是 随机 效应 模型 的 问题 。 在 前 面 分 析 的 基础 上 ， 操 作 命令 如 下 。 


。 ”xtreg profit sale cosbre: 本 命令 的 含义 是 以 profit 为 因 变量 ， 以 sale、cost 为 自 变量 ， 
进行 随机 效应 回归 分 析 。 

。 ”estimates store re: 本 命令 的 含义 是 存储 随机 效应 回归 分 析 的 估计 结果 。 

。 hausman fe re,constant sigmamore: 本 命令 的 含义 是 进行 豪 斯 曼 检 验 ， 并 据 此 判断 应 该 
选择 固定 效应 模型 还 是 随机 效应 模型 。 

在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 16.26~ 图 16.28 所 示 。 
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图 16.26 是 以 profit 为 因 变量 ， 以 sale、cost 为 自 变量 ， 进 行 随机 效应 回归 分 析 的 结果 。 


+ xtreg profit sale cost,re 


Random-effects GLS regression Number of obs = 100 

Group variable: region Nunber of groups = 20 

R-aq: within = 0.3637 Obs per group: min = 5 

between = 0.6615 avg = 5.0 

overall = 0.6394 max = 5 

Wald chi2 (2) = 62.84 

corrlu i, X) = 0 (assumed) Prob > chi2 = 0.0000 

profit Coef. std. Err. z pylzl [95% Conf. Interval] 

sale .000941 。 .0003979 2.37 0.018 .0001612 .0017209 

cost .4552322 。 .0592611 7.68 0.000 .3390826 .5713817 

cons 4.897379 。 .6983754 7.01 0.000 3.528588 6.266169 
sigma u | .42131364 
aigma_e | .09590366 

rho | .95073713 (fraction of variance due to u_i) 


图 16.26 进行 随机 效应 回归 分 析 


对 该 回归 分 析 结果 的 详细 解读 我 们 在 前 面 也 多 次 讲述 ， 此 次 不 再 重复 讲解 。 

图 16.27 存储 的 是 随机 效应 回归 分 析 估计 结果 。 选 择 “Data”|“PData Editor”|“Data 
Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 到 如 图 16.27 所 示 的 变量 _est_re 的 相关 数 
据 。 


Pr 
全 环 。。 迷 职 日 日 日 日 1 1 
失语 我 3 9 . 1 日 
姑 记 我 本 。 . 1 日 。 1 
ES 。。 入 ‘ . . 
ER ' . ' 日 1 1 a 
世相 区 和 1 日 . . 日 1 
TE 上 9 站 3 nD 
FP 日 日 日 4 1 
估 雪 日 日 » 日 3 3 
和 日 9 日 1 a 
| 1 . . 日 日 1 3 
rr ' n . 日 . 
rr o 日 3 中 . 3 
[7 日 . 3 . 了 
| 日 . 日 3 站 1 
re re 器 日 日 。 1 于 
re re 1 » 日 日 1 1 
re re 日 站 日 1 a 
re re 。 日 . 1 日 a 
re ra 日 . 站 3 3 3 
章 而 . 日 1 了 
由 Ee 9 日 . "| 
和 间作 站 上 站 1 "| 
bE Ee] 日 9 1 . 1 | 
人 1 1 1 
PF 日 » 日 日 1 
ws 3 9 . 上 二 

400 9 i 昌 日 3 昌 1 也 


16.27 查看 数据 
图 16.28 是 进行 豪 斯 曼 检验 的 结果 。 
豪 斯 曼 检验 的 原 假设 是 使 用 随机 效应 模型 。 图 16.28 中 显示 的 显著 性 P 值 (Prob>chi2 
=0.0061) 远 远 低 于 5%， 所 以 我 们 拒绝 初始 假设 ， 认 为 使 用 固定 效应 模型 是 更 为 合理 的 。 
综 上 所 述 ， 我 们 应 该 构建 固定 效应 模型 来 描述 变量 之 间 的 回归 关系 。 
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，hausman fe re,constant sigmamore 


Coefficients 
(hb) (B) (b-B) sqrt (diag(V_b-V_B)) 
fe re Difference SE. 
sale .0008134 .000941 一 .0001277 +000038 
cost .3855897 .8552322 一 .0696425 .0220623 
_cons 5.725855 4.897379 .8284759 .2396264 


b = consistent under Ho and Ha; obtained from xtreg 
B = inconsistent under Ha, efficient under Ho; obtained from xtreg 


Test: Ho: difference in coefficients not systematic 
chi2(3) = (b-B)'[(V_b-V_B)*(-1)] (b-B) 


Prob>chi2 = 0.0061 
(V_b-V_B is not positive definice) 


图 16.28 进行 豪 斯 曼 检验 
16.2 ”实例 二 一 一 长 面板 数据 分 析 


16.2.1 ”长 面板 数据 分 析 的 功能 与 意义 


长 面板 数据 是 面板 数据 的 一 种 ， 其 主要 特征 是 时 间 维 度 比 较 大 而 模 截面 维度 相对 较 小 ， 
或 者 说 , 同一 期 间 内 被 观测 的 期 间 较 多 而 被 观测 的 个 体 数量 较 少 。 长 面板 数据 分 析 相 对 而 言 更 
加 关注 设 定 扰动 项 相关 的 具体 形式 , 一 般 使 用 可 行 广 义 最 小 二 乘法 进行 估计 。 这 又 分 为 两 种 情 
形 : 一 种 是 仅 解决 组 内 自 相关 的 可 行 广义 最 小 二 乘 估计 ; 另 一 种 是 同时 处 理 组 内 自 相 关 与 组 间 
同期 相关 的 可 行 广义 最 小 二 乘 估计 。 下 面 就 以 实例 的 方式 来 介绍 一 下 这 几 种 方法 的 具体 应 用 。 


16.2.2， 相 关 数 据 来 源 


人 下 载 资源 Wideo\chap16\… 


丽 下 载 资源 :\sample\chap16 案 例 16.2.dta 


【 例 16.2】B 公司 是 一 家 保险 公司 ， 经 营 范围 遍布 全 国 10 个 省 市 ， 各 省 市 连锁 店 2001 
一 2010 年 的 相关 经 营 数据 包括 保费 收入 、 赔 偿 支出 以 及 创造 利润 等 ， 如 表 16.2 所 示 。 试 用 多 
种 长 面板 数据 回归 分 析 方 法 深入 研究 保费 收入 、 赔 偿 支 出 对 创造 利润 的 影响 关系 。 


表 16.2 B 公司 各 省 市 保费 收入 、 赔 偿 支 出 以 及 创造 利润 数据 (2001 一 2010 年 》 


年 份 保费 收入 /万 元 赔偿 支出 /万 元 创造 利润 /万 元 省 市 
2001 259.587 58.56 26.211 北京 
2002 261.083 52.23 21.039 北京 
2003 259.296 44.81 20.201 北京 
2004 | 257.546 39.35 19.536 | 北京 
2005 | 255.723 38.68 21.268 | 北京 
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2008 
2009 | 30.054 
2010 | 29.797 


16.2.3 Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 5 个 变量 ， 分 别 是 年 
份 、 保 费 收入 、 赔 偿 支 出 、 创 造 利 润 以 及 省 市 。 我 们 把 年 份 变量 定义 为 year， 把 保费 收入 变量 
定义 为 income， 把 赔偿 支出 变量 定义 为 cost， 把 创造 利润 变量 定义 为 profit， 把 省 市 变量 定义 
为 shengshi。 变 量 类 型 及 长 度 采取 系统 默认 方式 ,然后 录入 相关 数据 。 相 关 操 作 在 第 1 章 中 已 
有 详细 讲述 。 录 入 完成 后 数据 如 图 16.29 所 示 。 


DO oats canor td = O06 Zo We = 
File Edit View Data Took 


-| a 
Fiher variables here 

A Name label 

year 

mincome 

Feost 

profit 

shengshi 


时 Variables [Snapshot 


Properties 了 
5 Variables 
Name year 
上 Label 
oe Type mt 
. Format ye0g 
» Value label 
和 » Bo 
Vars: 5 order Dataset Obs: 80 Filter: Off — Mode: Edit CAE NUM J 


图 16.29 案例 16.2 数据 
先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 骤 如 下 : 


进入 Stata 14.0， 打 开 相关 数据 文件 ， 弹 出 主 界面 。 
贺 在 主 界面 的 “Command” 文 本 框 中 输入 如 下 命令 。 


。 “list year income cost profit: 本 命令 的 含义 是 对 4 个 变量 所 包含 的 样本 数据 进行 一 一 展 
示 ， 以 便 简 单 直观 地 观测 出 数据 的 具体 特征 ， 为 深入 分 析 做 好 必要 准备 。 

。 encode shengshi,gen(region): 因为 面板 数据 要 求 其 中 的 个 体 变量 取 值 必须 为 整数 而 且 
不 允许 有 重复 ， 所 以 我 们 需要 对 各 个 观测 样本 进行 有 序 编号 。 本 命令 旨 在 将 shengshi 
这 一 字符 串 变 量 转化 为 数值 型 变量 ， 以 便 进 行 下 一 步 操作 。 
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。 ”xtset region year: 本 命令 的 含义 是 对 面板 数据 进行 定义 ， 其 中 横 截 面 维度 变量 为 我 们 
上 步 生 成 的 region， 时 间 序 列 变量 为 year。 

。 xtdes: 本 命令 旨 在 观测 面板 数据 的 结构 ， 考 察 面板 数据 特征 ， 为 后 续 分 析 做 好 必要 准备 。 

。 xtsum: 本 命令 旨 在 显示 面板 数据 组 内 、 组 间 以 及 整体 的 统计 指标 。 

。 xttab income: 本 命令 旨 在 显示 “income” 变 量 组 内 、 组 间 以 及 整体 的 分 布 频率 。 

日 ”xttab cost: 本 命令 旨 在 显示 “cost” 变 量 组 内 、 组 间 以 及 整体 的 分 布 频率 。 

。 ”xttab profit: 本 命令 旨 在 显示 “profit” 变量 组 内 、 组 间 以 及 整体 的 分 布 频率 。 

。 ”xtline income: 本 命令 旨 在 对 每 个 个 体 显示 “income” 变 量 的 时 间 序 列 图 。 

。 ”xtline cost: 本 命令 旨 在 对 每 个 个 体 显示 “cost” 变 量 的 时 间 序 列 图 。 

。 ”xtline profit: 本 命令 旨 在 对 每 个 个 体 显示 “profit” 变量 的 时 间 序 列 图 。 

。 tab region,gen(region): 本 命令 旨 在 创建 省 市 变量 的 多 个 虚拟 变量 。 

® reg profit income cost region2-region8 year,vce(cluster region): 本 命令 的 含义 是 以 profit 
为 因 变 量 , 以 income、cost 以 及 生成 的 各 个 地 区 虚拟 变量 为 自 变 量 , 并 使 用 以 “region” 
为 聚 类 变量 的 聚 类 稳健 标准 差 ， 进 行 最 小 二 乘 回归 分 析 。 

。 “estimates store ols: 本 命令 的 含义 是 存储 最 小 二 乘 回归 分 析 的 估计 结果 。 

® xtpcse profit income cost region2-region8 year,corr(ar1): 本 命令 的 含义 是 在 仅 考虑 存在 
组 内 自 相关 ， 并 且 各 组 的 自 回 归 系 数 相同 的 情形 下 ， 以 profit 为 因 变 量 ， 以 income、 
cost 以 及 生成 的 各 个 地 区 虚拟 变量 为 自 变量 ， 进 行 可 行 广 义 最 小 二 来 回归 分 析 。 

。 ”estimates store arl: 本 命令 的 含义 是 存储 上 步 可 行 广义 最 小 二 乘 回归 分 析 的 估计 结果 。 

® xtpcse profit income cost region2-region8 year,corr(psar1): 本 命令 的 含义 是 在 仅 考虑 存 
在 组 内 自 相 关 , 并 且 各 组 的 自 回 归 系 数 不 相 同 的 情形 下 ,以 profit 为 因 变 量 ,以 income、 
cost 以 及 生成 的 各 个 地 区 虚拟 变量 为 自 变 量 ， 进 行 可 行 广义 最 小 二 乘 回 归 分 析 。 

。 “estimates store psar1: 本 命令 的 含义 是 存储 上 步 可 行 广义 最 小 二 乘 回归 分 析 的 估计 结果 。 

。 xtpcse profit income cost region2-region8 year,hetonly: 本 命令 的 含义 是 在 不 考虑 存在 自 
相关 ， 仅 考虑 不 同 个 体 扰 动 项 存在 异 方差 的 情形 下 ， 以 profit 为 因 变 量 ， 以 income、 
cost 以 及 生成 的 各 个 地 区 虚拟 变量 为 自 变 量 ， 进 行 可 行 广义 最 小 二 乘 回归 分 析 。 

。 “estimates store hetonly: 本 命令 的 含义 是 存储 上 步 可 行 广义 最 小 二 乘 回归 分 析 的 估计 结果 。 

。 ”estimates table ols arl psarl hetonly,b se: 本 命令 的 含义 是 展示 将 以 上 各 种 方法 的 系数 
估计 值 及 标准 差 列 表 放 到 一 起 进行 比较 的 结果 。 

® xtgls profit income cost region2-region8 year,panels(cor) cor(arl): 本 命令 的 含义 是 在 假 
定 不 同 个 体 的 扰动 项 相互 独立 且 有 不 同 的 方差 ， 并 且 各 组 的 自 回 归 系 数 相 同 的 情形 
下 ， 以 profit 为 因 变 量 ， 以 income、cost 以 及 生成 的 各 个 地 区 虚拟 变量 为 自 变量 ， 进 
行 可 行 广义 最 小 二 乘 回归 分 析 。 

® xtgls profit income cost region2-region8 year,panels(cor) cor(psar1): 本 命令 的 含义 是 在 假 
定 不 同 个 体 的 扰动 项 相互 独立 且 有 不 同 的 方差 , 并 且 各 组 的 自 回归 系数 不 相同 的 情形 
下 ， 以 profit 为 因 变 量 ， 以 income、cost 以 及 生成 的 各 个 地 区 虚拟 变量 为 自 变 量 ， 进 
行 可 行 广义 最 小 二 乘 回 归 分 析 。 


辆 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 
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在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 16.30~ 图 16.52 所 示 的 分 析 结 果 。 
图 16.30 是 对 数据 进行 展示 的 结果 。 它 的 目的 是 通过 对 变量 所 包含 的 样本 数据 进行 一 一 展 
示 ， 以 便 简单 直观 地 观测 出 数据 的 具体 特征 ， 为 深入 分 析 做 好 必要 准备 。 


2001 359.587 58.56 26.211 
2002 261.083 52.23 21.039 
.| 2003 259.296 44.81 20.201 
a, | 2004 257.546 39.35 19,536 
5. | 2005 255.723 38.68 21.268 


3. T2003 43.513 10.95 2.575 
24. | 2004 a2.a8 9.99 -2.322 
25. | 2005 4s2.122 9.69 。 2.638 


| list year income cost profit 


A 25. |2006 52.523 17.85 2.936 


27. | 2007 51.976 14.67 2.582 
28. | 2008 51.144 13.62 。 2.579 
29. | 2009 50.047 12.53 2.226 
30. |2010 40.943 12.05 。 2.023 


2001 259.587 58.56 
2002 261.083 52.23 


1 2006 29.865 9.5 1.903 
旺 

3. | 2003 259.295 44.81 

4 

5 


2007 29.611 9.18 1.953 
2008 29.327 8.41 1.94 
2009 28.898 7.12 2.063 
2010 28.196 G81 1.993 


2004 257.546 39.35 
2005 255.723 38.68 


31. | 2001 24.495 8.27 1.779 
32. | 2002 24.408 8.25 -1.811 
33. | 2003 24.083 7.26 -1.992 
34. | 2004 23.478 5.22 2.346 
35. |2005 22.774 4.7 1.665 


2001 94.495 。 8.37 1.779 
3002 924.408 98.95 1.811 
2003 924.083 7.26 1.999 
3004 23.478 5.22 。 2.346 
3005 322.774 4.7 1.665 


5. | 2006 29.865 9.5 
7. |2007 29.6l 9.18 
8. |2008 。 29.327 。 8.31 
9. |2009 。 28.898 。 7.12 
0. |2010 20.125 。 6.61 


35. | 2006 26.116 7.18 -3.042 
37. | 2007 26.102 6.67 2.634 
389. | zoom 25.75 5.8 2.531 


3006 326.116 。 7.18 -3.042 
3007 26.102 6.67 。 2.634 


11. | 2001 。 46.229 。 11.53 


Pe] lee 9. | zao 254A64 5.09 2.61 ao8 
:| 2010 zz .5 5.lo5 . : 
> 2010 25.203 4.8 了 ,108 


14. | 2004 45.373 。 8.51 
15, | 2005 45.02 8.15 


al. | 2001 25.308 11.02 1.656 
42. | 2002 25.281 B81 1.495 
‘43. | 2003 24.779 7.93 -1.211 
.| 2004 24.02 6.40 1.195 
a5. | 2005 23.154 6.04 1.026 


| zol 25.308 11.02 1,656 
2. | 2002 29.201 S61 -1.499 
rs. | 2003 24.779 1.93 -1211 
a. | 2004 C24.02 -6.48 -1199 
hs | 2003 23.154 S04 -1.026 


16. | 2006 41,109 9.06 
17, |2007 40.968 8.64 
18. |2008 40.643 -7.62 
19. | 2009 40.194 6.87 
20, |2010 39.722 6.67 


‘45. | 2006 30.892 6.89 3.835 
a7. | 2007 30.594 6 3.5 
aa. |2008 。 30.348 5.5 3.695 
43. | 2009 。 30.054 4.94 3.406 
so. | 2010 29.797 4.79 3.275 


2006 30.092 5.89 -3,039 
2007 。 30.594 6 3.3 
2008 。 30.348 9.3 3,695 
2009 。 30.054 4.94 。 3.406 
23.737 


21，| 2001 44.038 14.15 
22，| 2002 44.017 12.49 


16.30 ”展示 数据 

在 如 图 16.30 所 示 的 分 析 结 果 中 可 以 看 出 , 数据 的 总 体质 量 还 是 可 以 的 , 没有 极端 异常 值 ， 
变量 间 的 量 纲 差距 也 是 可 以 接受 的 ， 可 以 进入 下 一 步 的 分 析 。 

图 16.31 是 将 shengshi 这 一 字符 串 变量 转化 为 数值 型 变量 region 的 结果 。 选 择 “Data”| 
“Data Editor”|“Data Editor(Browse) ”命令 ， 进 入 数据 查看 界面 ， 可 以 看 到 如 图 16.31 所 示 的 
变量 region 的 相关 数据 。 


日 
8 


下 ao E33 
om Ea 
于 200 要 职 
* 2004 全 各 
0 a 
站 po 
7 oo po 
站 pe 
oo pe 

9 2010 要 所 

于 ant 广东 

二 am re 

0 re 

于 ao 广东 

0 广东 

运 “aoes 大家 

二 ao rk 

二 oo rx 

oo pi 

oo rk 

Ht ra 

站 re 

0 re 

34 00 re 

本 ao re 

36 00 re 

0 re 

天 re 

3 0 re 


16.31 查看 数据 


346 
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\\ 
\\ \\\ 
NN 


序列 变量 为 year。 


xtset region year 
panel variable: 

time variable: 
delta; 


region (strongly balanced) 
year, 2001 to 2010 
1 wit 


16.32 ”对 面板 数据 进行 定义 


从 图 16.32 可 以 看 出 这 是 一 个 平衡 的 面板 数据 。 
图 16.33 是 面板 数据 结构 的 结果 。 


.xtdes 
region: 1, 2, ..., 8 n= 8 
year: 2001, 2002, ..., 2010 10 
Deltalyear) = 1 unit 
Span(year) = 10 periods 
(region*year uniquely identifies each observation) 
Distribution of Ti: min 5 25% SOs 75% 953 ax 
10 10 10 10 10 10 10 
Freq. Percent Cum. | Pattern 
8 100.00 100.00 | 1111111111 
8 100.00 OC 


图 16.33 面板 数据 结构 


从 图 16.33 可 以 看 出 该 面板 数据 的 横 截面 维度 region 为 1~8 共 8 个 取 值 ， 时 间 序 列 维度 
year 为 2001~2010 共 10 个 取 值 , 属于 长 面板 数据 , 而 且 观 测 样本 在 时 间 上 的 分 布 也 非常 均匀 。 


图 16.34 是 面板 数据 组 内 、 组 间 以 及 整体 的 统计 指标 的 结果 。 


xtsum 

Variable Nean Std. Dev. Nin ax Observations 

year overall 2005.5 2.890403 2001 2010 N= 80 
betveen o 2005.5 2005.5 n= 8 
vichin 2.890403 2001 2010 T= 10 

income overall | 60.31106 75.89957 22.774 261.083 N= 80 
betveen 52.28008 24.7873 143.9062 n= 8 
within 57.78336 -55.46914 177.4879 T= 10 

coac overall 12.8525 13.41096 .7 58.56 N= 80 
betveen 9.26838 6.324 27.465 n= 8 
within 10.18515 = -7.8025 -43.9475 T= 10 

profit overall | 4.899112 6.471817 1.026 26.211 N= 80 
betveen 4.27608 2.3518 11.8037 n= 8 
within 5.067804 -5.001587 19.30641 T= 10 

shengshi overall N= o 
betveen n= o 
within T= 

region overall 4.5 2.305744 1 8 N= 80 
betveen 2.44949 a n= 8 
within o 5 4.5 T= 10 


16.34 ” 板 数据 组 内 、 组 间 以 及 整体 的 统计 指标 


在 短 面 板 数据 中 ， 同 一 时 间 段 内 的 不 同 观测 样本 构成 一 个 组 。 从 图 16.34 中 可 以 看 出 , 变 
量 year 的 组 间 标 准 差 是 0， 因 为 不 同 组 的 这 一 变量 取 值 完全 相同 ， 同 时 变量 region 的 组 内 标 
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准 差 也 为 0， 因 为 分 布 在 所 


\N\N 


\\ 


-组 的 数据 属于 同一 个 地 区 。 
图 16.35 是 “income” 变 量 组 内 、 组 间 以 及 整体 的 分 布 频率 的 结果 


xttab inoome 


图 16.35 


Overall Betveen Within 
inzone Freq. Percent Freq, Percent Percent 
22.774 2 2.50 2 25.00 10.00 
23.154 2 2.50 2 25.00 10.00 
23,478 2 2.50 2 25.00 10.00 
24.02 2 2.50 2 25.00 10.00 
24.083 2 2.50 2 25.00 10.00 
24,408 2 2.50 2 25.00 10.00 
24,495 2 2.50 2 25.00 10.00 
24.779 2 2.50 2 25.00 10.00 
25.203 2 2.50 2 25.00 10.00 
25,281 2 2.50 2 25.00 10.00 
25.308 2 2.50 2 25.00 10.00 
25.464 2 2.50 2 25.00 10.00 
25,15 2 2.50 2 25.00 10.00 
26,102 2 2.50 2 25.00 10.00 
26.116 2 2.50 2 25.00 10.00 
28,126 2 2.50 2 25.00 10.00 
28,898 2 2.50 2 25.00 10.00 
29,327 2 2.50 2 25.00 10.00 
29,611 2 2.50 2 25.00 10.00 
29,797 2 2,50 2 25.00 10.00 
29.865 2 2.50 2 25.00 10.00 


30- 
30. 
30. 
30. 
39. 
ao. 


ao 


40. 
41. 
42. 


42.83 
43.513 
44.017 
44.035 

45.02 
5.373 
45-945 
46.155 
46.229 
48.943 
50.047 
51.144 
51.976 
52 .5z3 

255.723 

257.546 

259.296 

259.567 

261.083 


054 
343 
594 
B92 
722 
194 
643 
963 
109 
122 


25.00 
25.00 
25.00 
25.00 
12.50 
12.50 
19.50 
12.50 
12.50 
12.50 
12.50 
12.50 
12.50 
12.90 
12.50 
12.50 
19.50 
12.50 
12.50 
12.50 
12.50 
12.50 
12.50 
12.90 
25.00 
25.00 
25.00 
25.00 
25.00 
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Overall Betve: 
cose Feeq。 Perceak Teea。 Per 

.7 2 2 25.00 
.7 2 i 2 90 
4 2 25.00 
.34 i 2 23.00 
5.09 . 2 35.00 
5.22 2 25.00 
5.5 2 25.00 
5.8 25.00 


图 16.36 


“cost” 变 量 的 分 布 频率 


Tocal 


“income” 变 量 的 分 布 频率 


图 16.36 是 “cost” 变 量 组 内 、 组 间 以 及 整体 的 分 布 频率 的 结果 。 
图 16.37 是 “profit” 变 量 组 内 、 组 间 以 及 整体 的 分 布 频率 的 结果 。 


xttab cost 


80 
(n= 6) 


1000.00 


Ti Ey 
1 12.90 10.00 
2 229.00 10.00 
1 12.50 10.00 
2 25.00 10.00 
2 25.00 10.00 
1 12.50 10.00 
1 3.5 10.00 
1 az-sm 0.em 
1 12.30 10.00 
1 12.50 10.00 
2 25.00 10.00 
1 12.50 10.00 
1 12.50 10.00 
1 3.50 10.00 
1 .0 10.00 
1 12.59 10.00 
10.00 
1 12.50 10.00 
1 12.50 10.00 
2 25.00 10.00 
2 25.00 10.00 
2 2500 10.00 
2 .00 i000 
2 00 10.00 
ae 1000.00 10.00 


图 16.37 “profit” 变 量 的 分 布 频率 
图 16.38 是 对 每 个 个 体 显 示 “income” 变 量 的 时 间 序 列 图 的 结果 。 
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16.38 ”显示 “income ”变量 的 时 间 序 列 图 


从 图 16.38 可 以 看 出 ,不同 地 区 的 保费 收入 的 时 间 趋 势 是 不 一 致 的 ， 有 的 地 区 变化 一 直 非 


常平 稳 ， 有 的 地 区 先 平稳 再 下 降 后 平稳 。 
图 16.39 是 对 每 个 个 体 显示 “cost” 变 量 的 时 间 序 列 图 的 结果 。 
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16.39 ”显示 “cost” 变 量 的 时 间 序 列 图 
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从 图 16.39 中 可 以 看 出 , 不 同 地 区 的 赔偿 支出 的 时 间 趋 势 是 不 一 致 的 ， 有 的 地 区 变化 一 直 
非常 平稳 ， 有 的 地 区 先 平稳 再 下 降 后 平稳 。 
16.40 是 对 每 个 个 体 显示 “profit” 变 量 的 时 间 序 列 图 的 结果 。 


北京 广东 广西 
河北 河南 江苏 


0102030 0102030 
ren 


en 


profit 


FE 
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year 


0 10 20 30 


(Grephe by moion 


图 16.40 显示 “profit” 变 量 的 时 间 序 列 图 


从 图 16.40 可 以 看 出 ,不同 地 区 的 创造 利润 的 时 间 趋 势 是 不 一 致 的 ， 有 的 地 区 变化 一 直 非 
常平 稳 ， 有 的 地 区 先 平稳 再 下 降 后 平稳 。 

16.41 是 创建 省 市 变量 的 多 个 虚拟 变量 的 结果 。 选 择 “Data”|“Data Editor”| “Data 
Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 到 如 图 16.41 所 示 的 变量 region1~region8 
的 相关 数据 。 

16.42 是 以 profit 为 因 变 量 ， 以 income、cost 以 及 生成 的 各 个 地 区 虚拟 变量 为 自 变量 ， 
并 使 用 以 “region” 为 聚 类 变量 的 聚 类 稳健 标准 差 ， 进 行 最 小 二 乘 回归 分 析 的 结果 。 


入 六 其 苹 稚 吕 六 号 总 呈 扣 基 


图 16.41 创建 省 市 变量 的 多 个 虚拟 变量 
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Linear regression 


(sed- 


第 16 章 Stata 
NN 


Root HSE 


Err. adjusted for 8 clusters in region) 


\\\WN\\N 


profit 


Coef. 


Robust 
std. Err. 


Pp>ltl 


[95% Conf. Interval] 


income 

cost 
region2 
region3 
Fegion4 
regions 


region6 
region7 
region8 


year 
_cons 


.0533635 
.2152267 
1.025832 
-.8861502 
1.45481 
1.280719 
-3.88e-15 
1.45481 
1.280719 
.1668369 
-336.3782 


.0096339 
.0666928 
.3450825 
.1849455 
.3547113 
.3443042 
6.44e-14 
.3547113 
3443042 
.1098037 
220.7297 


0.001 
0.015 
0.021 
0.002 
0.005 
0.007 
0.954 
0.005 
0.007 
0.172 
0.171 


.030583 
.0575234 
.2098411 

-1.323477 
.6160509 
.4665685 

-1.56e-13 
.6160509 
.4665685 

一 .0928075 
-858.321 


呈正 向 变化 的 。 


图 16.42 ”最 小 二 乘 回归 分 析 


从 图 16.42 所 示 的 分 析 结 果 中 可 以 看 出 共有 80 个 样本 参与 了 分 析 。 模 型 的 可 决 系数 
(CR-squared) 为 0.9845， 说 明 模型 的 解释 能 力 是 非常 好 的 。 
从 上 面 的 分 析 可 以 看 出 最 小 二 乘 线性 模型 的 整体 显著 性 、 系 数 显 著 性 以 及 模型 的 整体 解 
释 能 力 都 很 不 错 ,得 到 的 结论 是 该 保险 公司 的 创造 利润 情况 与 保费 收入 和 赔偿 支出 等 都 是 显著 


板 数 据 分 析 


\ 
SU 


、、、、 


图 16.43 存储 的 是 普通 最 小 二 乘 回 归 分 析 估计 结果 。 选 择 “Data”|“Data Editor”| “Data 
Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 到 如 图 16.43 所 示 的 变量 est_ols 的 相关 数 


据 。 


因 变 量 ， 以 income、cost 以 及 生成 的 各 个 地 区 虚拟 变量 为 自 变量 ， 进 行 可 行 广义 最 小 二 乘 回 


归 分 析 的 结果 。 


。 四 
。 9 
a . 

四 


16.43 ”普通 最 小 二 乘 回归 分 析 
图 16.44 是 在 仅 考虑 存在 组 内 自 相 关 ， 并 且 各 组 的 自 回 归 系 数 相 同 的 情形 下 ， 以 profit 为 
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~ xtpcse profit income cost region2-region8 year,corr(arl) 


Pprais-Winsten regression, correlated panels corrected standard errors (PCSEs) 


Group variable: region Number of obs = 80 
Time variable: year Number of groups = 8 
Panels: correlated (halanced) Obs per group: min = 10 
Autocorrelation: common AR(1) avg = 10 
max = 10 
Estimated covariances = 36 R-squared = 0.9794 
Estimated autocorrelations = 1 Vald chi2 (8) = 1031.38 
Estimated coefficients = 11 Prob > chi2 = 0.0000 

Panel-corrected 
profit Coef. Std. Err. = Pp>lzl [95% Conf. Interval] 
income 0513848 。 .0114491 4.49 0.000 .0289448 .0738247 
cost .2369246 .0685292 3.46 0.001 .1026099 .3712394 
Fegion2 1.148906 。 .6534121 1.76 ”0.079 。 -.1317581 2.42957 
region3 | -.8322166 .695395 -1.20 0.231 -2.195166 .5307325 
regiong 1.610996 。 .6838901 2.36 0.018 .2705958 2.951396 
region5 1.413287 .7366856 1.92 0.055 ~-.0305905 2.857164 
region6 | -1.89e-12 3.36e-08 -0.00 1.000 -6.59e-08 。 6.58e-08 
region7 1.610996 。 .6838901 2.36 0.018 .2705958 。 2.951396 
FegionB 1.413287 。 .7366856 1.92 0.055  -.0305905 2.857164 
year .1793389 。 .0370433 4.84 0.000 .1067353 = .2519424 
_cona | -361.6927 74.62795 -4.85 0.000 -507.9608 -215.4246 
rho .265627 


图 16.44 进行 可 行 广义 最 小 二 乘 回 归 分 析 


从 图 16.44 可 以 看 出 ， 在 仅 考虑 存在 组 内 自 相 关 ， 并 且 各 组 的 自 回归 系数 相同 的 情形 下 ， 
进行 可 行 广义 最 小 二 乘 回归 分 析 的 结果 与 普通 最 小 二 乘 回归 分 析 的 结果 是 有 一 些 区 别 的 。 

图 16.45 存储 的 是 上 步 可 行 广义 最 小 二 乘 回归 分 析 的 估计 结果 。 选 择 “Data”|“Data Editor” 
|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 到 如 图 16.45 所 示 的 变量 _est_arl 
的 相关 数据 。 
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16.45 查看 数据 


图 16.46 是 在 仅 考虑 存在 组 内 自 相 关 ， 并 且 各 组 的 自 回归 系数 不 相同 的 情形 下 ， 以 profit 
为 因 变 量 ， 以 income、cost 以 及 生成 的 各 个 地 区 虚拟 变量 为 自 变量 ， 进 行 可 行 广义 最 小 二 乘 
回归 分 析 的 结果 。 
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的 相关 数据 。 


回归 分 析 的 结果 。 
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+ xtpcse profit income cost region2-region8 year,corr(psarl) 


Pprais-Winsten regression, correlated panels corrected standard errors (PCSEs) 


Group variable: 
Time varieble; 


region 
year 


Number of obs 
Number of groups 


Panels: correlated (balanced) Obs per group: min = 10 

aurocorrelarion: panel-specific AR(1) avg = 10 

max = 10 

Estimated covariances = 36 R-squared = 0.9925 

Estimated autocorrelations = 8 Vald chiz (8) = 2660.97 

Estimated coefficients = 11 Prob > chi2 = 0.0000 
Panel-corrected 

profit Coef. Std. Err, z Pp>lzl [95% Conf. Interval] 

income .0499286 。 .0088864 5.62 0.000 .0325115 .0673457 

cost .2353169 .053092 4.43 0.000 .1312585 .3393753 

region2 .9777836 。 .5988821 1.63 0.103 。 -.1960038 。 2.151571 

region3 | -.9068021 .7989255 -1.14 0.256 -2.472667 .6590631 

region4 1.504788 .4177599 3.60 0.000 .685994 。 2.323583 

regions +6133663 2.08 -0.037 .0746926 -2.479044 

Fegion6 2.32e-08 0.00 1.000 -4.56e-08 4,56e-08 

region7 1.504788 。 .4177599 3.60 0.000 .685994 。 2.323583 

region8 1.276868 .6133663 2.08 -0.037 .0746926 。 2.479044 

year -1973701 。 .0359409 5.49 0.000 .1269273 .2678129 

_cons | -397.7056 72.26995 -5.50 0.000 -539.3521 -256,0591 


rhos = -.1981808 


.8593703 .7428073 -.1559056 


.6155057 ... 


-.1981808 


图 16.46 自 回 归 系 数 不 相 同 


从 图 16.46 可 以 看 出 , 在 仅 考虑 存在 组 内 自 相 关 , 并 且 各 组 的 自 回归 系数 不 相同 的 情形 下 ， 
进行 可 行 广义 最 小 二 乘 回归 分 析 的 结果 与 前 面 各 种 回归 分 析 的 结果 是 有 一 些 区 别 的 。 

图 16.47 存储 的 是 上 步 可 行 广 义 最 小 二 乘 回归 分 析 的 估计 结果 。 选择 “Data”|“Data Editor” 
|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 到 如 图 16.47 所 示 的 变量 _est_psarl 


16.47 


TO 


查看 数据 


图 16.48 是 在 不 考虑 存在 自 相关 ， 仅 考虑 不 同 个 体 扰动 项 存在 异 方差 的 情形 下 ， 以 profit 
为 因 变 量 ， 以 income、cost 以 及 生成 的 各 个 地 区 虚拟 变量 为 自 变量 ， 进 行 可 行 广义 最 小 二 乘 


TO 


er 
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，xtpcse profit income cost region2-region8 year,hetonly 


Linear regression, heteroskedastic panels corrected standard errors 


Group variable: region Number of obs = 80 
Time variable: year Number of groups = 3 
Panels: heteroskedastic (halanced) Obs per group: min = 10 
Autocorrelation: no autocorrelation avg = 10 
max = 10 
Estivated covariances = 8 R-aquared = 0.9845 
Estimated autocorrelations = o Vald chi2 (10) = 3241.67 
Estimated coefficients = 11 Prob > chi2 = 0.0000 
Her-correcred 
profit Coef. Std. Err. z Pp>lzl [95* Conf. Interval] 
income .0533635 。 .0073228 7.29 “0.000 .0390111 。 .0677159 
cost .2152267 .0444006 4.85 0.000 .1282031 .3022503 
region2 1.025832 .4483788 2.29 0.022 .1470253 1.904638 
region3 | -.8861502 .5174744 -1.71 0.087 -1.900381 .1280809 
region4 4465286 3.26 0.001 .5796298 2.32999 
region5s ' .5055611 2.53 0.011 .289837 2.2716 
region6 | -3.8Be-15 .4762843 -0.00 1.000 -~-.9335001 .9335001 
region7 1.45481 = .4465286 3.26 0.001 .5796298 2.32999 
region8 1.280719 。 .5055611 2.53 0.011 .289837 2.2716 
year .1668369 .038223 4.36 0.000 .0919212 = .2417526 
_cona | -336.3782 76.85813 -487.0174 -185.7391 


16.48 ” 仅 考虑 不 同 个 体 扰动 项 存在 异 方差 


从 图 16.48 可 以 看 出 , 在 不 考虑 存在 自 相关 , 仅 考 虑 不 同 个 体 扰动 项 存在 异 方差 的 情形 下 ， 
进行 可 行 广义 最 小 二 乘 回归 分 析 的 结果 与 前 面 各 种 回归 分 析 的 结果 是 有 一 些 区 别 的 。 

图 16.49 存储 的 是 上 步 可 行 广 义 最 小 二 乘 回归 分 析 的 估计 结果 。 选择 “Data”|“Data Editor” 
|“Data Editor(Browse)” 命 令 , 进入 数据 查看 界面 , 可 以 看 到 如 图 16.49 所 示 的 变量 _est_ hetonly 
的 相关 数据 。 


regleng roolone region roione neols MEM -mcenerl EEC 
3 


1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 
1 


16.49 查看 数据 
图 16.50 是 展示 将 以 上 各 种 方法 的 系数 估计 值 及 标准 差 列 表 放 到 一 起 进行 比较 的 结果 。 
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,estimates table ols arl psarl hetonly,b 


Stata 面 板 数 


Variable 


ols 


arl 


psarl 


hetonly 


cost 


regionz 


region3 


regiong 


region5 


region6 


region7 


region8 


Year 


_cons 


.05336351 
.00963388 
.2152267 
.06669277 
1.0258316 
34508253 
-.88615016 
.1849455 
1.4548098 


.34430425 


.16683689 
.10980365 
-336.37823 
220.7297 


.05138476 
.01144915 
.23692465 
.06852918 

1.148906 
.65341206 
.83221655 
.69539496 
1.6109958 
.68389013 


3. 8 
1.6109958 
.68389013 
1.4132868 
.7366856 
,17933885 
.03704331 
-361.69267 
74.627951 


.04992861 
.00888643 
.23531693 
.05309199 
.97778357 
.59888209 

~.90680209 


.79892547 
1.5047883 
.41775991 
1.2768684 
.61336628 
6.306e-13 


5e-08 
1.5047883 
.41775991 
1.2768684 
.61336628 
.19737013 
.03594086 
-397.7056 
72.269954 


.053363: 


.0073228 
.2152267 


.044400! 


76.8581: 


51 


63 


图 16.50 展示 比较 结果 


legend: b/se 
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WN 


从 图 16.50 可 以 看 出 ，hetonly 方 法 的 系数 估计 值 和 ols 方 法 的 系数 估计 值 是 完全 一 样 的 ， 但 
是 标准 差 并 不 一 样 。 其 他 各 种 方法 之 间 都 存在 着 一 定 的 差别 。 
图 16.51 是 在 假定 不 同 个 体 的 扰动 项 相互 独立 且 有 不 同 的 方差 , 并 且 各 组 的 自 
同 的 情形 下 ， 以 profit 为 因 变 量 ， 以 income、cost 以 及 生成 的 各 个 地 区 虚拟 变量 为 自 变 量 ， 进 
行 可 行 广义 最 小 二 乘 回归 分 析 的 结果 。 


.~ sble Brecit income cost rogten2-regicng year ,penclatcor) cor(ari) 
crcas-sectional time-series FGLS regression 
coetticients: generalized least squares 
Parels: heteroskedastio with oross-sectional correlation 
Correlation: common AR(I) coefficient for all panels (0.2656) 
Estimated covariances = a6 humber of obs = ao 
Estimated autocorrelatioas ~ 1 Nanber of groups = a 
etaueu eueccieaeaua 一 日 The per lu 3 in 
ald chi2 (7) -aaa.31 
Prob > chi2 = 0.0000 
protie cot. Sea Err, = plel [9st Conf, Interval] 
income | .050533 .0059673 8.47 0.000 。 .0388372 。 .0622288 
cost | .2372836 .0283261 8.38 0.000 .1817655 。 -2928017 
region2 | 1.069898 .6140896 1.74 0.081 。 -.1336956 。 2.273491 
region3 | -9093056 .6903737 -1.32 Ola8 -2.262809 .4441979 
regions Oemirced) 
regions | 1.321584 .7099093 1.86 0.063 。 -.0698127 。 2.712981 
regions Oemirced) 
region7 | 1.51725 .6519075 2.33 0.020 .2395351 2.794965 
regiong 日 omicced) 
rear | .1623514 .0183037 8.87 0.000 = .1264768 = .198226 
cons | -327.5118 36.82939 -8-89 0.000 。 -399.6961 -255.3275 
图 16.51 各 组 的 自 回归 系数 相同 


回归 系数 相 


从 图 16.51 可 以 看 出 ,在 假定 不 同 个 体 的 扰动 项 相互 独立 且 有 不 同 的 方差 并 且 各 组 的 自 


回归 系数 相同 的 情形 下 , 进行 可 行 广义 最 小 二 乘 回归 分 析 的 结果 与 前 面 各 种 回归 分 析 的 结果 是 


有 一 些 


区 别 的 。 
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图 16.52 是 在 假定 不 同 个 体 的 扰动 项 相互 独立 是 有 不 同 的 方差 , 并 且 各 组 的 自 
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回归 系数 不 


相同 的 情形 下 ， 以 profit 为 因 变量 ， 以 income、cost 以 及 生成 的 各 个 地 区 虚拟 变量 为 自 变量 ， 


进行 可 行 广义 最 小 二 乘 回归 分 析 的 结果 。 


cor) cortarl) 


correlation 


(0.2656) 
of cba 80 
of groul a 
riods 10 
Vald chi2(7) = 1144.31 
Prob > chi2 0.0000 
profit Coef. Std. Err. Pp>lzl [95% Conf. Interval] 
.050533 。 .0059673 8.47 0.000 .0388372 = .0622288 
.2372836 。 .0283261 8.38 0.000 .1817655 .2928017 
1.069898 .6140696 1.74 0.081 。 -.1336996 2,273491 
-.9093056 .6905757 -1.32 0.188 = -2.262809 .4441979 
0 (omitted) 
1.321584 。 .7099093 1.86 0.063 。 -.0698127 。 2.712981 
0 (omitted) 
1.51725 。 .6519075 2.33 0.020 .2395351 。 2.794965 
0 (omitted) 
.1623514 。 .0183037 8.87 “0.000 .1264768 .198226 
-327.5118 36.82939 -8.89 0.000 -399.6961 -255.3275 


图 16.52 各 组 的 自 回归 系数 不 相同 
从 图 16.52 可 以 看 出 ， 在 假定 不 同 个 体 的 扰动 项 相互 独立 且 有 不 同 的 方差 ， 并且 各 组 的 自 


是 有 一 些 区 别 的 。 


16.2.5 “案例 延伸 


回归 系数 不 相同 的 情形 下 ,进行 可 行 广义 最 小 二 乘 回归 分 析 的 结果 与 前 面 各 种 回归 分 析 的 结果 


上 述 的 Stata 命令 比较 简洁 ， 分 析 过 程 及 结果 已 达到 解决 实际 问题 的 目的 。 但 是 Stata 14.0 
的 强大 之 处 在 于 ， 它 同样 提供 了 更 加 复杂 的 命令 格式 以 满足 用 户 更 加 个 性 化 的 需求 。 


延伸 : 进行 随机 系数 模型 回归 分 析 


前 面 我 们 讲述 的 种 种 面板 数据 回归 分 析 方法 ， 最 多 允许 每 个 个 体 拥有 自己 的 截 距 项 ， 从 
来 没有 允许 每 个 个 体 拥有 自己 的 回归 方程 斜率 ， 那 么 Stata 能 否 做 到 变 系数 呢 ? 以 本 节 中 提 到 


的 案例 为 例 ， 操 作 命令 就 是 : 


xtrc profit income cost,betas 


本 命令 不 仅 允 许 每 个 个 体 拥有 自己 的 截 距 项 ， 还 允许 每 个 个 体 拥有 自己 的 回归 方程 斜率 ， 


旨 在 进行 随机 系数 模型 回归 分 析 。 


在 命令 窗口 输入 命令 并 按 回 车 键 进行 确认 ， 结 果 如 图 16.53 所 示 。 
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\\\\ 
| vtre profit inemme rest betas 二 
eromg 3 
Peasdan-coetticients regression 
incone | -.0890295 .0062266 -14.30 0.000 。 -.1012335 ~.0768256 
roup variab le: region 
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cons | 4.387642 .A23177] 10.37 0.000 。 3.558229 。 5.217055 


income | .3827678 .0602186 6.36 0.000 ,2647415 .5007941 
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cons | -3,104323 1,557598 -1,99 0.046 。 -6.157159 -~,0514874 om | -7.3080046 A17561 -17.30 0.000 -0,126412 -6,489681 
est of parayeter constaney: chi2(2) = 891.48 Prob > chi2 = 0.0000 Group € 
Group-specific eoeffieients incone | .0455972 .0059147 7.70 0,000 。 ,0339646 .0571498 
roat | .2303642 .047686 4.83 0.000 。 .1369008 。 .3238277 
Coet, std, Err， 2 Plel [95 cont, Interval] eons | ~.9026935 .5092535 -1,77 0.076 。 -1.900812 。 .095425 
Group 1 eroop 7 
income | 0455572 ,0059147 7.70 0.000 .0339646 acome | 3827678 .0602186 6.36 0.000 。 ,2647415 。 ,5007941 
oar | ,2303642 ,0476863 。 4.99 0,000 .1369008 cost | -A505261 .0578134 -2,60 0.009 。 -.2638383 .032139 
eons | =,9026935 ,5092535 -1,77 0,076 。 -1.900812 cons | -6.185409 1,167776 -5.30 0,000 。 -8.474208 -3,896611 
Group 2 Growp 8 
smcone | ,0504041 ,014856 3.39 0, incops | ,3636063 0149761 。 24.28 0.000 。 ,3342537 。 ,3929588 
oa | 1922436 .0281024 。 6. 上 0. cost | ~,034265 .0209232 164 0.101 ~.0752737 。 .0067437 
ons | .4299306 .B53226 。 -0.3 0. -2. ons | -7.306046 ,417541 -17.50 0.000 。 -4.126412 -65,489681 


图 16.53 分 析 结 果 图 


在 图 16.53 中 ， 模 型 中 对 参数 一 致 性 检验 的 显著 性 P 值 为 0.0000 (Test of parameter 
constancy: chi2(21) = 891.48 Prob > chi2 = 0.0000) ， 显 著 地 拒绝 了 每 个 个 体 都 具有 相同 系数 的 
原 假设 ， 我 们 的 变 系数 模型 设置 是 非常 合理 的 。 

可 以 根据 上 面 的 结果 写 出 模型 整体 的 回归 方程 和 每 个 个 体 的 回归 方程 。 结 果 的 详细 解读 
方式 与 普通 的 最 小 二 乘 回归 分 析 类 似 ， 限 于 篇 幅 不 再 袭 述 。 


16.3 “本章 习题 


(1) X 公司 是 一 家 销售 家 具 的 连锁 公司 ， 经 营 范围 遍布 全 国 20 个 省 市 ， 各 省 市 连锁 店 
2008 一 2012 年 的 相关 销售 数据 包括 销售 收入 、 促 销 费用 以 及 创造 利润 等 ， 如 表 16.3 所 示 。 试 
用 多 种 短 面板 数据 回归 分 析 方法 深入 研究 销售 收入 和 促销 费用 对 创造 利润 的 影响 关系 。 

表 16.3 X 公 司 各 省 市 连锁 店 销售 收入 、 促 销 费 用 以 及 创造 利润 数据 (2008 一 2012 年 ) 
创造 利润 /万 元 


2008 224.373 10.778 96 10.344 32 
2009 224.723 5 11.107 96 10.178 84 
224.7289 11.181 64 10.322 86 
224.4761 10.837 62 10.169 69 
2008 231.01 11.699 4 9.914 922 
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( 续 表 ) 
年 份 销售 收入 /万 元 促销 费用 /万 元 创造 利润 /万 元 地 区 
2012 223.525 1 11.008 74 9.236 008 广东 
2008 226.2307 10.915 09 10.517 32 广西 
2009 226.133 4 10.80771 10.435 88 广西 
2010 226.408 4 11.140 41 10.554 51 广西 
2011 226.3114 11.002 1 10.463 1 广西 
2012 226.0475 10.776 87 10.396 66 广西 


( 
年 的 相 
板 数据 


2) Y 公司 是 一 家 商业 银行 ， 经 营 范围 遍布 全 国 10 个 省 市 ， 各 省 市 连锁 店 2001 一 2010 
关 经 营 数据 包括 利息 收入 、 利 息 支出 以 及 创造 利润 等 ， 如 表 16.4 所 示 。 试 用 多 种 长 面 
回归 分 析 方 法 深入 研究 利息 收入 、 利 息 支出 对 创造 利润 的 影响 关系 。 


表 16.4 YY 公司 各 省 市 利息 收入 、 利 息 支 出 以 及 创造 利润 数据 (2001 一 2010 年 ) 
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2.638 广西 
52.523 17:85 2.936 广西 
51.976 14.67 2.582 广西 


48.943 14.05 2.023 广西 


第 17 章 Stata 在 研究 城市 
综合 经 济 实力 中 的 应 用 


改革 开放 以 来 ， 随 着 工业 化 进程 的 加 快 ， 我 国 城市 的 数量 不 断 增加 ， 个 体 的 规模 不 断 扩 
大 , 在 社会 经 济 生活 中 所 起 的 主导 作用 也 越 来 越 显 著 。 当 今世 界 已 经 进入 了 全 球 经 济 一 体 化 的 
时 代 ， 城 市 作为 国家 的 经 济 、 政 治 、 科 技 和 教育 文化 发 展 中 心 已 经 成 为 经 济 循环 的 主角 ， 而 决 
定 每 个 城市 的 地 位 、 作 用 以 及 未 来 发 展 态势 的 主要 因素 是 它们 各 自 拥有 的 综合 经 济 实力 。 城 市 
综合 实力 是 指 一 个 城市 在 一 定时 期 内 经 济 、 社 会 、 基 础 设施 、 环 境 、 科 技 、 文 教 等 各 个 领域 所 
具备 的 现实 实力 和 发 展 能 力 的 集合 。Stata 软件 可 以 用 来 进行 城市 综合 经 济 实力 的 相关 分 析 研 
究 ， 下 面 我 们 就 来 介绍 一 下 Stata 在 研究 城市 综合 经 济 实力 中 的 应 用 。 


17.1 研究 背景 及 目的 


2009 年 10 月 17 日 ， 第 六 届 中 国 城市 论坛 北京 峰会 在 朝阳 规划 艺术 馆 召 开 。 这 次 峰会 不 
仅 吸引 了 城市 发 展 领域 内 几 百 位 专家 的 关注 和 参与 ,更 让 来 自 全 国 各 个 城市 的 会 议 代表 们 受益 
菲 浅 。 会 议 指出 , “十 二 五 ”期间 既 是 全 球 经 济 复苏 的 关键 时 期 ， 也 是 我 国 加 快 城市 化 进程 的 
关键 时 期 。 

以 前 我 国 采取 的 城市 外 延 式 扩张 战略 导致 城市 发 展 中 出 现 了 资源 浪费 、 环 境 污染 、 不 注 
重 保护 城市 历史 文 脉 和 特点 等 各 种 各 样 的 问题 , 所 以 “十 二 五 ”期 间 , 城市 必须 从 规模 、 质量、 
结构 和 效益 等 各 个 角度 ， 推 进 实施 “内 涵 式 发 展 ”模式 。 城 市 发 展 将 呈现 5 个 新 变化 : 城市 发 
展开 始 从 外 延 式 扩张 向 内 涵 式 发 展 转变 ; 城市 软 实力 成 为 城市 发 展 的 核心 竞争 力 ; 城乡 统筹 和 
城乡 一 体 化 成 为 城市 发 展 的 新 格局 ; 综合 配套 改革 实验 区 的 示范 意义 进一步 凸显 ; 城市 群 对 城 
市 建设 与 发 展 的 作用 日 益 增强 。 

在 这 种 大 背景 下 对 我 国 各 城市 的 综合 经 济 实力 进行 研究 ， 不 论 是 对 于 促进 我 国 城市 本 身 
更 加 又 好 又 快 地 发 展 , 还 是 对 于 充分 发 挥 城市 在 社会 经 济 生活 中 所 起 的 主导 作用 , 都 有 着 极为 
重要 的 意义 。 

本 章 的 研究 目的 如 下 : 通过 对 描述 我 国 各 城市 综合 经 济 实力 的 各 种 指标 进行 分 析 ， 一 方 
面 找 出 用 来 衡量 我 国 城市 综合 经 济 实力 的 各 个 指标 之 间 的 内 在 联系 , 另 一 方面 找 出 各 城市 综合 
经 济 实力 的 差异 。 


17.2 ”研究 方法 


对 城市 综合 经 济 实力 的 概念 ， 中 国 城市 经 济 发 展 研究 中 心 提出 : 城市 综合 经 济 实力 是 指 


Stata 统 
Re Ot OR 
城市 所 拥有 的 全 部 实力 、 潜 力 及 其 在 国内 外 经 济 社会 中 的 地 位 和 影响 力 。 据 此 概念 可 以 看 出 ， 
评价 城市 综合 经 济 实力 应 该 包括 人 口 、 地 区 生产 总 值 、 拥 有 的 交通 运输 以 及 通信 和 能力、 地 方 财 
政 预算 内 收 支 、 固 定 资产 投资 总 额 、 城 乡 居民 工资 水 平 及 储蓄 水 平 、 环 境 污染 治理 投资 总 额 、 
商贸 市 场 水 平 、 人 才 状 况 及 社会 医疗 保障 水 平等 方面 , 所 以 我 们 采用 的 数据 指标 有 : 年 底 总 人 
口 、 地 区 生产 总 值 、 第 一 产业 增加 值 、 第 二 产业 增加 值 、 第 三 产业 增加 值 、 客 运 量 、 货 运 量 、 
地 方 财 政 预 算 内 收入 、 地 方 财政 预算 内 支出 、 固 定 资产 投资 总 额 、 城 乡 居民 储蓄 年 末 余 额 、 在 
岗 职 工 平 均 工 资 、 年 末 邮 政局 数 、 年 末 固 定 电话 用 户 数 、 社 会 商品 零售 总 额 、 货 物 进出 口 总 额 、 
年 末 实 有 公共 汽车 营运 车 辆 数 、 影 剧院 数 、 普 通 高 等 学 校 在 校 学 生 数 、 医 院 数 、 执 业 医师 、 环 
境 污染 治理 投资 总 额 等 22 个 指标 。 

本 例 采 用 的 数据 是 《中 国 2007 年 省 会 城市 和 计划 单列 市 主要 经 济 指标 统计 〈 包 括 市 辖 
县 ) 》， 数 据 摘 编 自 《中 国 统计 年 鉴 2008》。 

采用 的 数据 分 析 方法 主要 有 回归 分 析 、 相 关 分 析 、 因 子 分 析 等 。 

基本 思路 是 : 首先 使 用 回归 分 析 、 相 关 分 析 等 方法 研究 构成 城市 综合 经 济 实力 的 各 个 变 
量 之 间 的 关系 ; 然后 使 用 因子 分 析 对 构成 城市 综合 经 济 实力 的 各 个 变量 提取 公 因 子 ; 最 后 使 用 
一 些 简 单 的 Stata 数据 处 理 技巧 依照 提取 的 公 因子 对 各 城市 进行 分 类 及 排序 。 


17.3 ”数据 分 析 与 报告 


因为 本 例 采用 的 是 现 有 的 数据 ， 所 以 根据 第 1 章 介 绍 的 方法 直接 将 所 用 数据 录入 Stata 中 
即 可 。 我 们 共 设 置 了 23 个 变量 ， 分 别 是 “城市 名 称 ”“ 年 底 总 人 口 ”“ 地 区 生产 总 值 ”“ 第 
一 产业 增加 值 ”“ 第 二 产业 增加 值 ” “第 三 产业 增加 值 ” “客运 量 ” “货运 量 ”“ 地 方 财政 预 
算 内 收入 ”“ 地 方 财政 预算 内 支出 ” “国定 资产 投资 总 额 ” “城乡 居民 储蓄 年 末 余额 ” “在 岗 
职工 平均 工资 ” “年末 邮政 局 数 ”“ 年 末 固 定 电 话 用 户 数 ”“ 社 会 商品 零售 总 额 ”“ 货 物 进 出 
口 总 额 ” “年 末 实 有 公共 汽车 营运 车 辆 数 ”“ 影 剧院 数 ”“ 普 通 高 等 学 校 在 校 学 生 数 ”“ 医 院 
数 ”“ 执 业 医师 ”“ 环 境 污染 治理 投资 总 额 ”等 。 我 们 把 这 23 个 变量 分 别 定义 为 V1~V23。 
样本 是 中 国 2007 年 省 会 城市 和 计划 单列 市 主要 经 济 指标 统计 的 相关 数据 。 录 入 完成 后 数据 如 
图 17.1 所 示 。 
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17.1 案例 17 数据 


17.4 ”描述 性 分 析 


本 案例 的 数据 变量 除了 城市 这 一 字符 串 变 量 外 都 是 定 距 变 量 ， 通 过 进行 定 距 变量 的 基本 
描述 性 统计 ， 我 们 可 以 得 到 数据 的 概要 统计 指标 ， 包 括 平 均值 、 最 大 值 、 最 小 值 、 标 准 差 、 百 
分 位 数 、 中 位 数 、 偏 度 系数 和 峰 度 系数 等 。 通 过 获得 这 些 指标 ， 可 以 从 整体 上 对 拟 分 析 的 数据 


进行 宏观 把 握 ， 为 后 续 进行 更 深入 的 数据 分 析 做 好 必要 准备 。 
17.4.1 Stata 分 析 过 程 


描述 性 分 析 的 步骤 如 下 : 


加 进入 Stata 14.0， 打 开 相 关 数 据 文件 ， 弹 出 主 界面 。 
在 主 界面 的 “Command” 文 本 框 中 输入 命令 : 


summarize V2-V23,detail 
设置 完毕 后 ， 按 键盘 上 的 回 车 键 , 等待 输出 结果 。 


17.4.2 结果 分 析 


在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 17.2~ 图 17.12 所 示 的 分 析 结 果 。 
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17.2 V2 和 V3 描述 性 分 析 结果 


年 底 总 人 口 第 一 产业 增加 值 

Percentiles Suallest Percentiles Smallest 

二 62 62 69412 69412 

5 149 149 74200 74200 
os 167 153 obs 36 162659 149349 cba 36 
Pss 337 167 Sum of Wgt. 36 361989.5 162659 Sun of Wgt. 36 
Bos 623.5 Hean 667.9444 1015500 Hean 1248159 
Largest Std. Dev. 542.749 Largeat Sta. Dev. 1038455 

ss 768.5 1112 1648113 2492933 
Os 1112 1213 Variance 294576.5 2492933 2757361 Veriance 1.08e112 
上 ss 1379 1379 Skewness 2-99197 3476764 3476764 Skewness 1.36616 
9 3235 3235 Kurtosis 15.02719 ‘4823900 4823900 Furtosis 5.336955 

地 区 生产 总 值 第 二 产业 卷 加 值 

Percentiles Sallest Percentiles Smalleat 

1 1219100 1219100 312100 312100 

5 3424581 3424581 1111209 1111209 
os 4086009 3936858 cba 36 2020998 1772896 cba 36 
ss 1.18e+07 4086009 Sum of Wgt. 36 3291010 2020998 3un of Mgr. 36 
os 2.28e+07 Hean 2.84e+07 1.02er07 nean 1.30e+07 
Largeat Std. Dev. 2.58er07 Largesc std. Dev. 1.13e+07 

5 3.380+07 6.80e+07 1.79e707 2.81e+07 
oO 5.80e+07 7.11et07 Variance 6.66e+14 2.81e+07 2.89e+07 Variance 1.27e+14 
ss 9 .35e+07 9 .35e+07 Skevne: 895145 3.a0er07 3.40e+07 Skewness 1.853984 
9 1.22e+08 1.22e+08 Kurtosis 6.817154 5.68er07 5.68e+07 Kurtosis 7.540296 


图 17.3 V4 和 V5 描述 性 分 析 结 果 图 


第 三 产业 增加 值 
Percentiles Smallest Percentiles 
1% 032000 032000 1 32 
Ss 1502336 1502336 2441 2441 
os 2557511 1020621 ops 36 4502 4000 obs 36 
ss 5707481 2557511 Sum of Vat. 36 7581 4582 Sum of Wgt. 36 
[sos 9936043 Nean 1.42e+07 13304 Mean 18817.97 
Largest 3ed, Dev. .52er07 Largest atd, Dev. 16370.92 
hss 1.59e+07 3.39e+07 22560.5 45142 
os 3.39er07 15er07 Variance 2.32er14 45142 49970 Veriance 2.60e+00 
ss 6.41et07 6.41e+07 Skevness 2.362122 50462 50462 Skevness 1.789018 
sy 6.740107 G6.740107 Ructosi 9.265390 70100 70100 Kurtosis 5.337054 
地 方 财政 预算 内 收入 
Percentiles Smalleat Percentiles Sallest 
s 2871 2871 53800 53800 
和 2926 2926 104123 104123 
区 3345 3303 obs 36 448495 276384 cbs 36 
:ss 6426.5 3345 Sun of ge. 36 015676.5 440495 Su of Wgt. 36 
[sos 12182.5 Nean 16043.19 1631604 Hean 2060951 
Largest Std. Dev. 15179.27 Largeat Std. Dev. 4066302 
ss 18740.5 30693 3109620 5404390 
os 30693 43317 Variance 2.30e+08 5404390 6580554 Veriance 1.65e+13 
bss 51180 51180 Seawnaaa 2.363536 1.a9er07 1.49e+07 Skewness 3.102202 
ss 77727 7727 Kurtosis 9.327829 2.07er07 2.07e+07 Kurtosis 13.34594 


图 17.4 


V6 和 V7 描述 性 分 析 结 果 图 


图 17.5 


V8 和 V9 描述 性 分 析 结 果 
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地 方 财政 预算 内 支出 城乡 居民 储 畜 年 来 余额 
Pen le i Percentiles smallesc 
1 246227 246227 3% 304700 303700 
432058 432058 5 2970909 2970909 虽 
os 454705 230463 cps 36 a i 3266169 ohbs 和 
ss 1174302 484708 Sun of Wgt. 36 | js 6971610 4309529 Sum of Wgt. 
os 1901096 i aaoy | so -1.460ro7 Hean 1.99e+07 
Largeat sea。 Dev. tee Largeot Sta. Dev. 2.11et07 
?ss 3437557 7279563 ss 1.98e+07 3.79e+07 a 
sos 7279563 7663886 Varlance 1.90er13 ow de .60+07 Varianoe re 
ass 1.65er07 1.65e+07 Skewness 2.942701 | |ss* 9.11e+07 9.11e+07 Skewness 2 080 
ss 2.16er07 2.16er07 Kurtosis 11.82365 | |sss 9.330+07 9.33e+07 Furtosis 
固定 资产 投资 总 额 在 岗 职 工 平均 工资 
Percentiles Smallest Percentiles Smallest 
1% 876200 876200 3 19992 19992 
5 1709130 1709130 5% 21019 21019 
10% 2816095 1818297 Obs 36 10% 22156 22104 和 3 
ss 5932940 2016095 Sum of Wge. a6 | Es 23918.5 22156 un of Wot, 
Sos .35eto7 PE se | 26630.5 Hean 28881.22 
Largest std, Dev. .00er07 Largest Sd. Dev. 7564.119 
ss .90e+07 2 .39e+07 Hg 31017 40561 ee 
lI9os 2.39e+07 3.16e+07 Variance 1.01e+14 pt 45508 Variance ei 
sy 3.97er07 3.970+07 Sewneaa 1.215752 | |95* 46956 46954 Skewness Et 
99s 4.46e+07 .46e+07 Kurtosis 4.599039 | |3* 49311 49311 Kurtosis - 


17.6 V10 和 V11 描述 性 分 析 结 果 


图 17.7 V12 和 V13 描述 性 分 析 结 果 图 


年 末 邮 政局 数 社会 商品 罕 售 总 额 
Percentiles Smallest Percentiles Smallest 
36 36 559000 558000 
76 76 1281040 1281040 
95 cba 36 1893831 1389869 cba 36 
Sum of Vat. 36 4287444 1893831 Sum of Mar， 36 
Nean 447.5556 9598571 Hean 1.05e+07 
Largest Sted, Dev. 628 .198 Largest stad. Dev. B635481 
842 1.33e+07 1.92e+07 
1027 Variance 394632.8 1.92e+07 2.600+07 Varience 7.81e+13 
1981 Skevness 3.621824 3.80e+07 3.80e+07 Skevness 1.757778 
3468 Kurtos: 16.80621 3.85e+07 3.85e+07 Kurtceis 6.256983 
年 来 固定 电话 用 户 数 货物 进出 口 总 额 
Percentil Smallest Percentiles Smallest 
31 31 21908 21908 
5a 5 56740 56740 
93 61 36 93952 71500 bs 36 
93 36 308872 93952 Sum cz Wg. 36 
318.1111 646591.5 Hean 3585619 
Largest Std. Dev. 221.5589 Largest std. Dev. 7106723 
6a3 3926126 7349356 
723 Variance 49088.33 7349356 1.93e+07 Varience 5.05e+13 
915 Skavness 1.486064 2.830+07 2.830+07 skevreoe 2.764245 
1022 Kurtosis 5.324049 2.88e+07 2.88e+07 Furtcsis 9.653569 


图 17.8 V14 和 V15 描述 性 分 析 结 果 图 图 17.9 V16 和 V17 描述 性 分 析 结果 图 


363 


Stata 统 计 分 析 与 行业 应 用 案例 详解 (第? 版) 
\ \ \\\\\ 


年 末 实 有 公共 汽车 营运 车 辆 数 普通 高 等 学 校 在 校 学 生 数 

Percenriles Smallest Percentiles Smallest 

了 702 702 265 265 

5s 865 865 12163 12163 
10% 1353 992 ons a6 52657 a7665 cms 36 
ss 2321 1353 Sum of gt. 36 145546 52657 Sun of Wot. 36 
5os 3895.5 Hean 4835 297003.5 Hean 307963.1 
Largest aea。 Dev. 4069.403 Largear Sta, Dev. 201054.7 

ss 5635.5 9314 467697.5 570794 
gos 9314 10734 Variance 1.66e707 570794 624403 Variance 4.040+10 
ss 16944 16944 Skewness 2.066515 679924 679924 Skewness .3916176 
ass 19395 19395 Furtosis 7.469046 778368 778368 Furtosio 2.372773 

彩 剧 院 数 医院 数 

Percentiles Boallest Percentiles smallcac 

1 4 4 53 53 

Ss 5 5 75 75 
10% 5 5 obs 36 108 101 ops 36 
ss .5 5 um of gt. 36 211 100 aum of Wat. a6 
so% 17 Hean 19121 267 Hean 1150.061 
Largear Std. Dev. 114513.3 Largest Std, Dev. 4791.931 

ss 59 114 460.5 Go6 
go% 114 150 Variance 1.31e+10 686 1162 Variance 2.30e+07 
ss 153 153 Skevness 5.747040 1447 1447 akewnesa 5.716361 
ss 687115 687115 Furtosis 34.02856 29056 29056 Kurtosis 33.79682 


17.10 ”V18 和 V19 描述 性 分 析 结果 图 17.11 V20 和 V21 描述 性 分 析 结 果 图 


Percentiles Smallest 


oba 36 
Sum of Voc. 36 


Nean 57140.67 
Largeac std. Dev. 244875.4 

19242.5 38739 
38739 48825 Variance 6.000t10 
54989 54989 Skevness 5.727096 
1404003 1404003 Kuctosss 33.07001 


环境 污染 治理 投资 总 额 


Percentiles Smalleat 
o 


o 
o obs 35 
o Sum of Vgt. 35 


12326 


72302 Hean 290009.0 
Largest Std. Dev. 652770 

272202 653000 
653008 996994 Variance 4.26e+11 
1217394 1217394 skewness 4.165502 
3661231 3661231 Kurtosis 21.51808 


图 17.12 V22 和 V23 描述 性 分 析 结 果 图 


在 如 图 17.2~ 图 17.12 所 示 的 分 析 结 果 中 ， 可 以 得 到 很 多 信息 。 此 处 限于 篇 幅 不 再 针对 各 
个 变量 一 一 展开 说 明 ， 以 变量 环境 污染 治理 投资 总 额 为 例 进行 解释 。 


。 百 分 位 数 (Percentiles ): 可 以 看 出 变量 V23 的 第 1 个 四 分 位 数 (25% ) 是 12326， 第 
2 个 四 分 位 数 (50% ) 是 72382。 

。 4 个 最 小 值 (Smallest): 变量 环境 污染 治理 投资 总 额 最 小 的 4 个 数据 值 分 别 是 0、0、 
Oz 0 

。 4 个 最 大 值 (Largest ): 变量 环境 污染 治理 投资 总 额 最 大 的 4 个 数据 值 分 别 是 653008、 
996994、1217394、3661231。 

e。 平均 值 ( Mean ) 和 标准 差 ( Std. Dev ): 变量 环境 污染 治理 投资 总 额 的 平均 值 为 298009.8， 
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标准 差 是 652770。 

e。 偏 度 ( Skewness ) 和 峰 度 (Kurtosis ): 变量 环境 污染 治理 投资 总 额 的 偏 度 为 4.165502， 
为 正 偏 度 。 变量 环境 污染 治理 投资 总 额 的 峰 度 为 21.51808， 有 一 个 比 正 态 分 布 更 长 的 
尾巴 。 


从 上 面 的 描述 性 分 析 结 果 中 ， 可 以 比较 轻松 地 看 出 ， 所 有 数据 中 没有 极端 数据 ， 数 据 间 
的 量 纲 差距 也 在 可 接受 范围 之 内 ， 可 以 进入 下 一 步 的 分 析 过 程 。 


17.5 “相关 分 析 


对 于 相关 分 析 ， 我 们 准备 进行 以 下 几 个 部 分 : 

e。 对 “地 区 生产 总 值 ”的 3 个 组 成 部 分 (“第 一 产业 增加 值 ”“ 第 二 产业 增加 值 ”“ 第 三 
产业 增加 值 ”) 进行 简单 相关 分 析 。 

e 对 “客运 量 ” 和 “货运 量 ” 进 行 简单 相关 分 析 。 

。 对 “地 方 财政 预算 内 收入 ”和 “地 方 财政 预算 内 支出 ”进行 简单 相关 分 析 。 

e 对 “年 底 总 人 口 ”“ 地 区 生产 总 值 ”“ 环 境 污染 治理 投资 总 额 ” 这 3 个 变量 进行 简单 相 
关 分 析 。 

1. 对 “地 区 生产 总 值 ”的 3 个 组 成 部 分 进行 简单 相关 分 析 

操作 步骤 如 下 : 

四 进入 Stata 14.0， 打 开 相 关 数据 文件 ， 弹 出 主 界面 。 

在 主 界面 的 “Command” 文 本 框 中 输入 如 下 命令 。 


日 “correlate V4V5V6: 本 命令 旨 在 使 用 简单 相关 分 析 方 法 研究 “第 一 产业 增加 值 ”“ 第 
二 产业 增加 值 ”“ 第 三 产业 增加 值 ”3 个 变量 之 间 的 相关 关系 。 
。 pwcorr V4 V5 V6,sidak sig star(0.01): 本 命令 旨 在 判断 “第 一 产业 增加 值 ”“ 第 二 产业 
增加 值 ”“ 第 三 产业 增加 值 ”3 个 变量 之 间 的 相关 性 在 置信 水 平 为 99% 时 是 否 显著 。 
加 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 
结果 分 析 如 图 17.13 和 图 17.14 所 示 。 从 图 17.13 可 以 看 出 ， 只 有 “第 二 产业 增加 值 ”与 
“第 三 产业 增加 值 ”之 间 具 有 比较 大 的 相关 系数 。 


- pwcorr V4 V5 V6,sidak sig star(0.01) 
va v5 V6 
,eorrelate Va v5 v6 va | 1.0000 
{obs=36) 
| Va V5 ve V5 0.2088 。 1.0000 
0.5204 
va | 1.0000 
v5 | 0.2088 1.0000 ve | 0.1208 0.8673* 1.0000 
V6 0.1208 0.8673 1.0000 0.8615 0.0000 
图 17.13 ”相关 分 析 结 果 图 1 图 17.14 ”相关 分 析 结 果 图 2 
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相关 性 ， 并 且 在 0.01 的 显著 性 水 平 上 显著 ， 其 他 的 变量 之 间 相 关 性 很 不 显著 。 


2. 对 “客运 量 ” 和 “货运 量 ”进行 简单 相关 分 析 

操作 步骤 如 下 : 

进入 Stata 14.0， 打 开 相 关 数 据 文件 ， 弹 出 主 界面 。 

贺 在 主 界面 的 “Command” 文 本 框 中 输入 如 下 命令 。 

。 “correlate V7V8: 本 命令 旨 在 使 用 简单 相关 分 析 方法 研究 “客运 量 ” 和 “货运 量 ” 这 2 
个 变量 之 间 的 相关 关系 。 

。 pwcorr V7 V8,sidak sig star(0.01): 本 命令 旨 在 判断 “客运 量 ” 和 “货运 量 ”这 2 个 变 
量 之 间 的 相关 性 在 置信 水 平 为 99% 时 是 否 显著 。 

辆 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


结果 分 析 如 图 17.15 和 图 17.16 所 示 。 从 图 17.15 可 以 看 出 ，“ 客 运 量 ” 与 “货运 量 ” 之 
间 的 相关 系数 不 是 很 大 。 


pwoorr VI Ve,sidak sig star(0.01)| 


,correlate V7 V8 
(oba=36) 


1.0000 
wm ve 


V7 1.0000 0.4961« 
ve 0.4961 1.0000 0.0021 


图 17.15 相关 分 析 结果 图 3 17.16 ”相关 分 析 结果 图 4 
从 图 17.16 中 可 以 看 出 ， “客运 量 ” 与 “货运 量 ” 之 间 虽 然 相关 系数 不 是 很 大 ， 但 是 这 种 
相关 性 却 很 强 ， 在 0.01 的 显著 性 水 平 上 显著 。 

3. 对 “地 方 财政 预算 内 收入 ”和 “地 方 财政 预算 内 支出 ”进行 简单 相关 分 析 

操作 步骤 如 下 : 

加 进入 Stata 14.0， 打 开 相 关 数 据 文 件 ， 弹 出 主 界面 。 

贺 在 主 界面 的 “Command” 文 本 框 中 输入 如 下 命令 。 

e。 correlate V9 V10: 本 命令 旨 在 使 用 简单 相关 分 析 方法 研究 “客运 量 ” 和 “货运 量 ”这 
2 个 变量 之 间 的 相关 关系 。 

。 pwcorr V9 V10,sidak sig star(0.01): 本 命令 旨 在 判断 “客运 量 ” 和 “货运 量 ” 这 2 个 变 
量 之 间 的 相关 性 在 置信 水 平 为 99% 时 是 否 显著 。 

辆 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


结果 分 析 如 图 17.17 和 图 17.18 所 示 。 从 图 17.17 可 以 看 出 ，“ 地 方 财政 预算 内 收入 ”和 
“地 方 财政 预算 内 支出 ”之 间 的 相关 系数 很 大 。 
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pwcorr V9 Vi0,sidak sig star(0.01) 


+ Correlate V9 V10 3 Vi0 
{obs=36) 
1.0000 
| v9 V10 
v9 1.0000 0.9910* 1.0000 
V10 0.9910 “1.0000 0.0000 


图 17.17 相关 分 析 结果 图 5 图 17.18 ”相关 分 析 结 果 图 6 


从 图 17.18 中 可 以 看 出 ， “地 方 财政 预算 内 收入 ”和 “地 方 财政 预算 内 支出 ”相关 系数 不 
是 很 大 ， 而 且 这 种 相关 性 很 强 ， 在 0.01 的 显著 性 水 平 上 显著 。 


4. 对 “年 底 总 人 口 ”“ 地 区 生产 总 值 ”“ 环 境 污染 治理 投资 总 额 ” 进 行 简单 相关 分 析 
操作 步骤 如 下 ; 

进入 Stata 14.0， 打 开 相关 数据 文件 ， 弹 出 主 界面 。 

贺 在 主 界面 的 “Command” 文 本 框 中 输入 如 下 命令 。 


。 ”correlate V2 V3 V23: 本 命令 旨 在 使 用 简单 相关 分 析 方法 研究 “年 底 总 人 口 ”“ 地 区 生 
产 总 值 ”“ 环 境 污染 治理 投资 总 额 ” 3 个 变量 之 间 的 相关 关系 。 
。 pwcorr V2 V3 V23,sidak sig star(0.01): 本 命令 旨 在 判断 “年 底 总 人 口 ”“ 地 区 生产 总 值 ” 
“环境 污染 治理 投资 总 额 ”3 个 变量 之 间 的 相关 性 在 置信 水 平 为 99% 时 是 否 显著 。 


辆 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


结果 分 析 如 图 17.19 和 图 17.20 所 示 。 从 图 17.19 可 以 看 出 ， 年 底 总 人 口 与 地 区 生产 总 值 
为 正 相关 但 相关 系数 不 大 ; 年 底 总 人 口 与 环境 污染 治理 投资 总 额 之 间 也 为 正 相 关 , 而 且 相关 系 
数 也 不 大 ;地 区 生产 总 值 与 环境 污染 治理 投资 总 额 之 间 也 为 正 相 关 ， 相 关系 数 较 大 。 

从 图 17.20 中 可 以 看 出 , 只 有 地 区 生产 总 值 与 环境 污染 治理 投资 总 额 之 间 的 相关 关系 非常 
显著 (在 0.01 的 水 平 上 显著 ) 。 


。 pwoorr V2 V3 V23,sidak sig star(0.01) 


v2 v3 V23 


. oorrelate V2 V3 V23 
1.0000 


0.4685 1.0000 
0.0118 


1.0000 
0.4615 1.0000 


i 0.3621 0.6735+ 1.0000 


0.0945 0.0000 


图 17.19 相关 分 析 结 果 图 7 图 17.20 相关 分 析 结果 图 8 


17.6 回归 分 析 


对 于 回归 分 析 ， 我 们 准备 以 “地 区 生产 总 值 ” 为 因 变量 ， 以 “年 底 总 人 口 ” “客运 量 ” 
“货运 量 ” “地方 财政 预算 内 收入 ”“ 地 方 财政 预算 内 支出 ” “固定 资 产 投 资 总 额 ”“ 城 乡 居 
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民 储 营 年 末 余 额 ” “在 岗 职工 平均 工资 ” “年 末 邮 政局 数 ”“ 年 末 固 定 电话 用 户 数 ”“ 社 会 商 
品 零售 总 额 ” “货物 进出 口 总 额 ” “年 末 实 有 公共 汽车 营运 车 辆 数 ”“ 影 剧院 数 ”“ 普 通 高 等 
学 校 在 校 学 生 数 ” “医院 数 ”“ 执 业 医师 ”“ 环 境 污染 治理 投资 总 额 ”等 为 自 变 量 ， 进 行 多 重 
线性 回归 。 

建立 线性 模型 : 


地 区 生产 总 值 = a* 年 底 总 人 口 +b* 客 运 量 tc* 货 运 量 td* 地 方 财政 预算 内 收入 te* 地 方 财政 
预算 内 支出 + 全 固定 资产 投资 总 额 fg* 城 乡 居民 储蓄 年 末 余 额 +h* 在 岗 职 
工 平均 工资 + 评 年 末 邮 政局 数 fj# 年 末 固 定 电话 用 户 数 +k# 社 会 商品 零售 
总 额 +l* 货 物 进出 口 总 额 +tm# 年 末 实 有 公共 汽车 营运 车 辆 数 +n# 影 剧院 数 
+o*# 普 通 高 等 学 校 在 校 学 生 数 +p# 医 院 数 +q* 执 业 医师 +r# 环 境 污染 治理 
投资 总 额 +u 


普通 最 小 二 乘 回归 分 析 的 步骤 及 结果 如 下 : 


加 进入 Stata 14.0， 打 开 相 关 数 据 文件 ， 弹 出 主 界面 。 
在 主 界面 的 “Command” 文 本 框 中 输入 如 下 命令 


日 SwWregress V3 V2V7-V23,pr(0.10): 本 命令 的 含义 是 使 用 逐步 回归 分 析 方法 ， 以 “地 
区 生产 总 值 ”为 因 变 量 ， 以 “年 底 总 人 口 ” “客运 量 ” “货运 量 "” “地方 财政 预算 内 收 
入 ”“ 地 方 财 政 预 算 内 支出 " “固定 资产 投资 总 额 ” “城乡 居民 储蓄 年 末 余 额 ” “在岗 职 
工 平 均 工 资 "“ 年 末 邮 政局 数 " “年末 固定 电话 用 户 数 ”“ 社 会 商品 零售 总 额 ” “货物 进 
出 口 总 额 ” “年末 实 有 公共 汽车 营运 车 辆 数 ” “影剧院 数 ”“ 普 通 高 等 学 校 在 校 学 生 数 ” 
“医院 数 ” “执业 医师 >” “环境 污 染 治理 投资 总 额 ” 等 为 自 变量 ， 进 行 多 重 线性 回归 。 
predict yhat: 本 命令 旨 在 获得 因 变 量 的 拟 合 值 。 

predict exresid: 本 命令 旨 在 获得 回归 模型 的 估计 残 差 。 

rvfplot: 本 命令 旨 在 绘制 残 差 与 回归 得 到 的 拟 合 值 的 散 点 图 ， 探 索 数 据 是 否 存在 异 方差 。 
estat imtesbwhite: 本 命令 为 怀特 检验 ， 旨 在 检验 数据 是 否 存在 异 方差 。 

estat hettest,iid: 本 命令 为 BP 检验 ， 间 在 使 用 得 到 的 拟 合 值 来 检验 数据 是 否 存在 异 方差 。 
estat hettest,rhs iid: 本 命令 为 BP 检验 , 旨 在 使 用 方程 右边 的 解释 数据 来 检验 变量 是 否 
存在 异 方差 。 


园 设置 完毕 后 ， 按 键盘 上 的 回 车 键 进行 确认 。 


在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 17.21~ 图 17.27 所 示 的 分 析 结 果 。 

图 17.21 是 使 用 逐步 回归 分 析 方 法 ， 以 “地 区 生产 总 值 为 因 变量 ， 以 “年 底 总 人 口 ?“ 客 
运 量 ”“ 货 运 量 ”“ 地 方 财政 预算 内 收入 ”“ 地 方 财 政 预 算 内 支出 ”“ 固 定 资产 投资 总 额 ”“ 城 
乡 居民 储蓄 年 末 余 额 ” “在岗 职工 平均 工资 ”“ 年 末 邮 政局 数 ”“ 年 末 固 定 电话 用 户 数 ”“ 社 
会 商品 零售 总 额 ”“ 货 物 进 出 口 总 额 ” “年末 实 有 公共 汽车 营运 车 辆 数 ”“ 影 剧院 数 ”“ 普 通 
高 等 学 校 在 校 学 生 数 ”“ 医 院 数 ”“ 执 业 医 师 ”“ 环 境 污染 治理 投资 总 额 ” 等 为 自 变量 ， 进 行 
多 重 线性 回归 的 结果 。 
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sw regress V3 V2 VI-V23,pr(0.10) 
begin with full model 

p = 0.8172 >= 0.1000 removing V13 
p = 0.6659 >= 0.1000 x V23 
p = 0.6435 >= 0.1000 x v5 
p = 0.5136 >= 0.1000 x v20 
p = 0.4071 >= 0.1000 x v2 
p = 0.5773 >= 0.1000 x vio 
p = 0.2603 >= 0.1000 x v9 
p = 0.2561 >= 0.1000 x V22 
p = 0.3142 >= 0.1000 removing V12 
p = 0.2027 >= 0.1000 removin g 97 

Source ss af ns Number of obs = 35 

F( 8, 26) = 651.47 

Model | 2.2732e+16 8 2.8415e+15 Prob >F = 0.0000 

Residual | 1.1340et14 26 4.3617e+12 R-squared = 0.9950 

Adj R-squared = 0.9935 

Toral | 2.2846e+16 34 6.7193e+14 Root HSE = 2.1e+06 

v3 Coef. Std. Err. 上 Pp>ltl [95% Conf. Interval] 

Vi9 | -141.4416 72.19314 -1.96 0.061 -289.8367 6.953492 

Vi4 | -4391.273 1535.017 -2.86 0.008 -7546.545 -1236 

ve 196.4853 41.527 4.73 0.000 111,1254 。 281.8453 

V17 1.320081 .1056014 12.50 0.000 1.103014 。 1.537147 

V18 | -749.7279 342.2635 -2.19 0.038 -1453.26 。 -46.19524 

Vil .3700798 。 .1297517 2.85 0.008 .1033713 .6367882 

V2l 4141.523 1796.039 2.31 0.029 449.7115 。 7833.335 

Va6 1.701424 。 .2203774 7.72 0.000 1.248432 。 2.154417 

_con: 534506.5 。 679459.6 0.79 0.439 。 -862142.7 1931156 


17.21 回归 分 析 结果 图 1 


从 上 述 分 析 结果 中 可 以 看 出 共有 35 个 样本 参与 了 分 析 ， 模 型 的 F 值 (8, 26) =651.47，P 值 
(Prob >F) = 0.0000, 说 明 模 型 整体 上 是 非常 显著 的 。 模 型 的 可 决 系数 (R-squared ) 为 0.9950， 
模型 修正 的 可 决 系数 (Adj R-squared) 为 0.9935, 说 明 模型 的 解释 能 力 是 非常 优秀 且 接 近 完 美 
的 。 

模型 经 过 10 次 剔除 变量 后 得 到 最 终结 果 。 第 1 个 模型 是 包含 全 部 自 变量 的 全 模型 ， 该 模 
型 中 V13 变量 的 系数 显著 性 P 值 高 达 0.8172， 被 剔除 掉 ， 第 2 个 模型 是 包含 全 部 自 变量 的 全 
模型 ， 该 模型 中 V23 变量 的 系数 显著 性 P 值 高 达 0.6659， 被 剔除 掉 ， 第 3 个 模型 是 包含 全 部 
自 变 量 的 全 模型 ， 该 模型 中 V15 变量 的 系数 显著 性 P 值 高 达 0.6435， 被 剔除 掉 ;， 第 4 个 模型 
是 包含 全 部 自 变量 的 全 模型 ， 该 模型 中 V20 变量 的 系数 显著 性 P 值 高 达 0.5136， 被 剔除 掉 ， 
第 5 个 模型 是 包含 全 部 自 变 量 的 全 模型 ， 该 模型 中 V2 变量 的 系数 显著 性 P 值 高 达 0.4071, 被 
剔除 掉 ， 第 6 个 模型 是 包含 全 部 自 变量 的 全 模型 ， 该 模型 中 V10 变量 的 系数 显著 性 P 值 高 达 
0.5773， 被 剔除 掉 ; 第 7 个 模型 是 包含 全 部 自 变 量 的 全 模型 ， 该 模型 中 V9 变量 的 系数 显著 性 
P 值 高 达 0.2603， 被 剔除 掉 ; 第 8 个 模型 是 包含 全 部 自 变量 的 全 模型 ， 该 模型 中 V22 变量 的 
系数 显著 性 P 值 高 达 0.2561， 被 剔除 掉 ， 第 9 个 模型 是 包含 全 部 自 变量 的 全 模型 ， 该 模型 中 
V12 变量 的 系数 显著 性 P 值 高 达 0.3142, 被 剔除 掉 ; 第 10 个 模型 是 包含 全 部 自 变 量 的 全 模型 ， 
该 模型 中 V7 变量 的 系数 显著 性 P 值 高 达 0.2027， 被 剔除 掉 ; 剔除 掉 上 述 自 变量 以 后 得 到 最 终 
回归 模型 。 

在 最 终 回 归 模 型 中 ， 变 量 V19 的 系数 标准 误 是 72.19314，t 值 为 -1.96，P 值 为 0.061， 系 
数 是 比较 显著 的 ,95% 的 置信 区 间 为 [-289.8367, 6.953492]。 变 量 V14 的 系数 标准 误 是 1535.017， 
t 值 为 -2.86, P 值 为 0.008， 系 数 是 非常 显著 的 ，95% 的 置信 区 间 为 [-7546.545, -1236]。 变 量 V8 
的 系数 标准 误 是 41.527，t 值 为 473，P 值 为 0.000， 系 数 是 非常 显著 的 ，95% 的 置信 区 间 为 
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[111.1254, 281.8453]。 变 量 V17 的 系数 标准 误 是 0.1056014, t 值 为 12.50, P 值 为 0.000， 系 数 
是 非常 显著 的 ，95% 的 置信 区 间 为 [1.103014, 1.537147]。 变 量 V18 的 系数 标准 误 是 342.2635， 
t 值 为 -2.19, P 值 为 0.038， 系 数 是 非常 显著 的 ，95% 的 置信 区 间 为 [-1453.26, -46.19524]。 变 量 
V11 的 系数 标准 误 是 0.1297517，t 值 为 2.85，P 值 为 0.008， 系 数 是 非常 显著 的 ，95% 的 置信 
区 间 为 [0.1033713, 0.6367882]。 变量 V21 的 系数 标准 误 是 1796.039, t 值 为 2.31, P 值 为 0.029， 
系数 是 非常 显著 的 ，95% 的 置信 区 间 为 [449.7115,7833.335]。 变 量 V16 的 系数 标准 误 是 
0.2203774，t 值 为 7.72，P 值 为 0.000， 系 数 是 非常 显著 的 ，95% 的 置信 区 间 为 [1.248432， 
2.154417]。 常数 项 的 系数 标准 误 是 679459.6, t 值 为 0.79, P 值 为 0.439, 系数 是 非常 不 显著 的 ， 
95% 的 置信 区 间 为 [-862142.7, 1931156]。 
最 终 最 小 二 乘 回归 模型 的 方程 是 : 
地 区 生产 总 值 = 196.4853* 货 运 量 +0.3700798* 固 定 资产 投资 总 额 -4391.273* 年 末 邮 政局 数 
+1.701424* 社 会 商品 零售 总 额 + 1.320081* 货 物 进 出 口 总 额 -749.7279 * 年 
末 实 有 公共 汽车 营运 车 辆 数 -141.4416* 影 剧院 数 + 4141.523* 医院 数 二 
534506.5 


图 17.22 是 对 因 变 量 的 拟 合 值 的 预测 。 
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17.22 ”回归 分 析 结 果 图 2 
因 变 量 预测 拟 合 值 是 根据 自 变量 的 值 和 得 到 的 回归 方程 计算 出 来 的 ， 主 要 用 于 预测 未 来 。 
在 图 17.22 中 ， 可 以 看 到 yhat 的 值 与 var3 的 值 是 比较 相近 的 ， 所 以 拟 合 的 回归 模型 还 是 不 错 
的 。 
图 17.23 是 回归 分 析 得 到 的 残 差 序列 。 
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图 17.23 ”回归 分 析 结 果 图 3 
图 17.24 是 上 面 两 步 得 到 的 残 差 与 得 到 的 拟 合 值 的 散 点 图 。 


17.24 回归 分 析 结果 图 4 


从 图 17.24 中 可 以 看 出 , 残 差 并 没有 随 着 拟 合 值 的 大 小 的 不 同 而 不 同 , 而 是 围绕 0 值 上 下 
随机 波动 ， 所 以 ， 数 据 很 可 能 是 不 存在 异 方 差 的 。 

17.25 是 怀特 检验 的 检验 结果 。 

怀特 检验 的 原 假设 是 数据 为 同方 差 。 从 图 17.25 中 可 以 看 出 ，P 值 为 0.4204， 非 常 显著 地 
接受 了 同方 差 的 原 假设 ， 认 为 不 存在 异 方差。 

图 17.26~ 图 17.27 是 BP 检验 的 检验 结果 。 其 中 ， 图 17.26 是 使 用 得 到 的 拟 合 值 对 数据 进 
行 异 方差 检验 的 结果 ， 图 17.27 是 使 用 方程 右边 的 解释 变量 对 数据 进行 异 方差 检验 的 结果 。 
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17.25 ”回归 分 析 结 果 图 5 


, estat hettest,iid |. estat hettest,rhs iid 


Breusch-Pagan / Cook-Weisberg test for heteroskedasticity breusch-Pagan / Cook-Veisberg test for heteroskedasticity 
Ho; Constant variance Ho: Constant variance 
Variables: fitted values of V3 Variables: V19 V14 VB V17 V18 V1l V21 V16 


chi2 (1) = 1.44 chi2 (8) = 7.13 
prob > chi2 = 0.2309 Prob > chi2 = 0.5222 


图 17.26 回归 分 析 结 果 图 6 图 17.27 回归 分 析 结 果 图 7 


BP 检验 的 原 假设 是 数据 为 同方 差 。 从 图 17.26 和 图 17.27 中 可 以 看 出 ，P 值 均 大 于 0.05， 
非常 显著 地 接受 了 同方 差 的 原 假设 , 认为 不 存在 异 方差 , 所 以 我 们 没有 必要 使 用 稳健 的 标准 差 
进行 回归 。 

经 过 以 上 最 小 二 乘 回归 分 析 ， 可 以 发 现 我 国 城市 的 地 区 生产 总 值 与 社会 商品 零售 总 额 、 
货物 进出 口 总 额 、 货 运 量 、 固 定 资产 投资 总 额 、 年 末 邮 政局 数 、 影 剧院 数 、 医 院 数 、 年 末 实 有 
公共 汽车 营运 车 辆 数 有 显著 关系 , 与 其 他 变量 之 间 的 关系 并 不 显著 。 其 中 , 固定 资产 投资 总 额 、 
社会 商品 零售 总 额 、 货 物 进 出 口 总 额 、 医 院 数 、 货 运 量 对 地 区 生产 总 值 起 正 向 作用 ， 尤 其 是 医 
院 数 和 货运 量 ， 每 增加 一 个 单位 ， 地 区 生产 总 值 就 分 别 增加 4141.523 个 单位 和 196.4853 个 单 
位 ， 而 年 末 邮 政局 数 、 影 剧院 数 、 年 末 实 有 公共 汽车 营运 车 辆 数 对 地 区 生产 总 值 起 反 向 作用 。 


17.7 ”因子 分 析 


对 于 因子 分 析 ， 我 们 将 对 构成 城市 综合 经 济 实力 的 各 个 变量 提取 公 因 子 。 

操作 步骤 如 下 : 

加 进入 Stata 14.0， 打 开 相 关 数据 文件 ， 弹 出 主 界面 。 

国 在 主 界面 的 “Command” 文 本 框 中 分 别 输入 如 下 命令 并 按键 盘 上 的 回 车 键 进 行 确认 。 

。 factor V2V3V7-V23,pcf: 本 命令 的 含义 是 采用 主 成 分 因子 法 对 构成 城市 综合 经 济 实 
力 的 各 个 变量 进行 因子 分 析 。 

。 rotate: 本 命令 的 含义 是 采用 最 大 方差 正 交 旋转 法 对 因子 结构 进行 旋转 。 

。 ”loadingplot,factors(2) yline(0) xline(0): 本 命令 的 含义 是 绘制 因子 旋转 后 的 因子 载荷 图 。 
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。 estat kmo: 本 命令 的 含义 是 展示 本 例 因子 分 析 的 


加 设置 完毕 后 ， 等 待 输出 结果 。 


在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 17.28~ 
图 17.28 展示 的 是 因子 分 析 的 基本 情况 。 


\ \ \\\\ 
Stata 在 研究 城市 综合 经 济 


习 力 


WW AMMAY 


predict fl 亿 人 名: 本 命令 的 含义 是 展示 因子 分 析 后 各 个 样本 的 因子 得 分 情况 。 
correlate fl 人 2 全 : 本 命令 的 含义 是 展示 系统 提取 的 3 个 主因 子 的 相关 系数 矩阵 。 
scoreplot,mlabel(V1) yline(0) xline(0): 本 命令 的 含义 是 展示 每 个 样本 的 因子 得 分 示意 图 。 


KMO 检验 结果 。 


screeplot: 本 命令 的 含义 是 展示 本 例 因子 分 析 所 提取 的 各 个 因子 的 特征 值 碎 石 图 。 


图 17.36 所 示 的 分 析 结 果 。 


Factor lcadings (pattern macrix) and unique Var: 


. factor V2 V3 VI-V23,pcf 

(oba=35) 

Factor analysis/correlation Number of obs = 35 
Nethod: principal-componenc facrors Retained factors = 3 
Fotation: (unrotated) Number of paraxs = 54 

Factor Eigenvalue Difference Proporcion Cumulative 
Fectorl 10.84298 7.05651 0.5707 0.5707 
Facror2 3.78647 1.71390 0.1993 9.7700 
Faccor3 2.07257 1.32814 0.1091 0.8791 
Faccor4 0.74443 0.13619 0.0392 0.9182 
Fectors 0.60824 0.26697 0.0320 0.9502 
Fector6 0.34128 0.14581 0.0180 0.9682 
Factor7 0.19547 .06271 -ol03 -9785 
Faccore 0.13276 0.03027 0.0070 0.9855 
Faccor9 0.10249 0.05017 0.0054 0.9909 
Factor10 0.05231 0.01582 0.0028 0.9936 
Factor1l 0.03649 0.00277 0.0019 0.9956 
Facror12 .03373 0.00901 0-0018 0.9973 
Factor13 0.02471 0.01054 0.0013 0.9986 
Factor14 0.01418 0.00775 0.0007 0.9994 
Factor15 0.00643 0.00270 0.0003 0.9997 
Factor16 0.00373 0.00231 0.0002 0.9999 
Factor17 9.00142 9.00112 -ooo1 1.0000 

Factor18 0.00030 0.00028 0.0000 1.0000 
Factor19 0.00002 0.0000 1.0000 
LR test: independent va. saturared: chi2(171) = 1584.71 Frob>chiz = 0.0000 


iances 


Variable | Faccorl Factor? Factor3 


Uniqueness 


0.5892 
0.9744 
0.4814 
0.58267 
0.9285 
0.9490 
0.9055 
0.9705 
0.6664 
0.6002 
0.9612 
0.9756 
0.7710 
0.9337 
0.3384 
0.3135 
0.3625 
0.3790 
0.6874 


-0.0322 
-0.0732 
0.4219 
0.0213 
-0.2710 
-0.2462 
-0.2150 
-0.0423 
-0.0102 
0.7339 
-0.0582 
-0.0493 
-0.2275 
-0.1517 
0.9129 
-0.4137 
0.9114 
0.8992 
-0.3959 


0.7383 
-0.1292 
0.6115 
0.2043 
-0.2089 
-0.1236 
0.2575 
0.1218 
-0.5435 
0.1857 
0.1802 
-0.0201 
-0.4619 
-0.0766 
-0.1438 
0.5538 
-0.1140 
-0.1318 
-0.1236 


0.1066 
0.0284 
0.2164 
0.2744 
0.0207 
0.0235 
0.0675 
0.0415 
0.2604 
0.0668 
0.0402 
0.0454 
0.1405 
0.0994 
0.0315 
0.4239 
0.0250 
0.0305 
0.3555 


17.28 ”因子 分 析 结果 图 
图 17.28 的 上 半 部 分 说 明 的 是 因子 分 析 模 型 的 一 般 情 


况 ， 从 图 中 可 以 看 出 共有 35 个 样本 


(Number of obs = 35) 参与 了 分 析 ， 提 取保 留 的 因子 共有 3 个 〈Retained factors = 3) ， 模 型 
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LR 检验 的 卡 方 值 (LR test: independent vs. saturated: chi2(171)) 为 1384.71，P 值 (Prob>chi2) 
为 0.0000， 模 型 非常 显著 。 图 17.28 的 上 半 部 分 最 左 列 〈Factor) 说 明 的 是 因子 名 称 ， 可 以 看 
出 模型 共 提取 了 19 个 因子 。Eigenvalue 列表 示 的 是 提取 因子 的 特征 值 情 况 ， 只 有 前 3 个 因子 
的 特征 值 是 大 于 1 的 , 其 中 第 1 个 因子 的 特征 值 是 10.84298, 第 2 个 因子 的 特征 值 是 3.78647。 
Proportion 列表 示 的 是 提取 因子 的 方差 贡献 率 ， 其 中 第 1 个 因子 的 方差 贡献 率 为 37.07%， 第 2 
个 因子 的 方差 贡献 率 为 19.93%。Cumulative 列表 示 的 是 提取 因子 的 累计 方差 贡献 率 ， 其 中 前 
两 个 因子 的 累计 方差 贡献 率 为 77% 。 

图 17.28 的 下 半 部 分 说 明 的 是 模型 的 因子 载荷 矩阵 以 及 变量 的 未 被 解释 部 分 。 其 中 ， 
Variable 列表 示 的 是 变量 名 称 ，Factorl 、Factor2、Factor3 这 3 列 分 别 说 明 的 是 提取 的 前 3 个 
主因 子 (特征 值 大 于 1) 对 各 个 变量 的 解释 程度 ， 本 例 中 ，Factorl 主要 解释 的 是 V2、V3、V7、 
V8、V9、V10~V18、V23 变量 的 信息 ，Factor2 主要 解释 的 是 V7、V14、V19、V21、V22 变 
量 的 信息 ，Factor3 主要 解释 的 是 V2、V7、V20 这 3 个 变量 的 信息 。Uniqueness 列表 示 变 量 未 
被 提取 的 前 4 个 主因 子 解释 的 部 分 , 可 以 发 现在 舍弃 其 他 主因 子 的 情况 下 , 信息 的 损失 量 是 比 
较 小 的 。 

图 17.29 展示 的 是 对 因子 结构 进行 旋转 的 结果 。 经 过 学 者 们 的 研究 表明 ， 旋 转 操作 有 助 于 
进一步 简化 因子 结构 。Stata 14.0 支持 的 旋转 方式 有 两 种 : 一 种 是 最 大 方差 正 交 旋 转 ， 一 般 适 
用 于 相互 独立 的 因子 或 者 成 分 ， 也 是 系统 默认 的 情况 ; 另外 一 种 是 Promax 斜 交 旋转 ， 它 允许 
因子 或 者 成 分 之 间 存 在 相关 关系 。 此 处 我 们 选择 系统 默认 方式 , 当然 我 们 后 面 的 操作 也 证 明了 
这 种 方式 的 恰当 性 。 


rotate 


|Faccor analysis/correlation Number of obs 全 35 
va | os36 ois920 。 0036 | 。 90238 | 
V22 0.1177 0.9775 0.0063 0.0305 中 本 
V23 0.7756 -0.1750 0.1109 0.3555 Re se 


17.29 ”因子 分 析 结 果 图 2 
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图 17.29 包括 3 部 分 内 容 , 第 1 部 分 说 明 的 是 因子 旋转 模型 的 一 般 情况 ， 从 图 中 我 们 可 以 
看 出 共有 35 个 样本 (Number of obs = 35) 参与 了 分 析 ， 提 取保 留 的 因子 共有 3 个 (Retained 
factors = 3) ， 模 型 LR 检验 的 卡 方 值 (LR test independent vs. saturated: chi2(171)) 为 1584.71， 
P 值 (Prob>chi2) 为 0.0000， 模 型 非常 显著 。 图 17.29 的 上 半 部 分 最 左 列 〈Factor) 说 明 的 是 
因子 名 称 ， 可 以 看 出 模型 共 保留 了 19 个 因子 。Variance 列表 示 的 是 提取 因子 的 特征 值 情况 ， 
只 有 前 3 个 因子 的 特征 值 是 大 于 1 的 ， 其 中 第 1 个 因子 的 特征 值 是 9.34431， 第 2 个 因子 的 特 
征 值 是 4.31012。Proportion 列表 示 的 是 提取 因子 的 方差 贡献 率 ， 其 中 第 1 个 因子 的 方差 贡献 
率 为 49.18%， 第 2 个 因子 的 方差 贡献 率 为 22.68%。Cumulative 列表 示 的 是 提取 因子 的 累计 方 
差 贡献 率 ， 其 中 前 两 个 因子 的 累计 方差 贡献 率 为 71.87% 。 

图 17.29 的 第 2 部 分 说 明 的 是 模型 的 因子 载荷 矩阵 以 及 变量 的 未 被 解释 部 分 。 其 中 ， 
Variable 列表 示 的 是 变量 名 称 ，Factorl、Factor2、Factor3 这 3 列 分 别 说 明 的 是 旋转 提取 的 3 
个 主因 子 对 各 个 变量 的 解释 程度 ， 本 例 中 ，Factorl 主要 解释 的 是 V3、V8、V9、V10~V13、 
V15~V18、V23 变量 的 信息 ，Factor2 主要 解释 的 是 V14、V19、V21、V22 变量 的 信息 ，Factor3 
主要 解释 的 是 V2、V7、V20 这 3 个 变量 的 信息 。Uniqueness 列表 示 变 量 未 被 提取 的 前 3 个 主 
因子 解释 的 部 分 ， 可 以 发 现在 舍弃 其 他 主因 子 的 情况 下 ， 信 息 的 损失 量 是 很 小 的 。 

图 17.29 的 第 3 部 分 展示 的 是 因子 旋转 矩阵 的 一 般 情 况 , 提取 的 4 个 因子 相关 关系 不 明显 。 

图 17.30 展示 的 是 因子 旋转 后 的 因子 载荷 图 。 因 子 载荷 图 可 以 使 用 户 更 加 直观 地 看 出 各 个 
变量 被 前 两 个 因子 的 解释 情况 。 


Factorloadings 


ev 


. .ov 
3 V3vsvse 
Vir 


De 
17.30 ”因子 分 析 结 果 图 3 


与 前 面 的 分 析 相 同 ， 我 们 发 现 Factorl 主要 解释 的 是 V3、V8、V9、V10~V13、V15~V18、 
V23 变量 的 信息 ，Factor2 主要 解释 的 是 V14、V19、V21、V22 变量 的 信息 。 

图 17.31 展示 的 是 因子 分 析 后 各 个 样本 的 因子 得 分 情况 。 因 子 得 分 的 概念 是 通过 将 每 个 变 
量 标准 化 为 平均 数 等 于 0 和 方差 等 于 1, 然后 以 因子 分 析 系 数 进行 加 权 合 计 为 每 个 因子 构成 的 
线性 情况 。 以 因子 的 方差 贡献 率 为 权 数 对 因子 进行 加 权 求 和 , 即 可 得 到 每 个 样本 的 因子 综合 得 
分 。 

根据 图 17.31 展示 的 因子 得 分 系数 和 矩阵， 可 以 写 出 各 公 因 子 的 表达 式 。 值 得 一 提 的 是 , 在 
表达 式 中 各 个 变量 已 经 不 是 原始 变量 而 是 标准 化 变量 。 
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~ prediot £1 £2 £3 
(regression scoring assumed) 
Boor iay coiiiciants ethod = regression: based on variax rovated Tantors 
Variable | Factor! Factorz Factors 
va | -0.06153 -0.02965 0.35393 
va | oil06s8 0.01282 -0.02891 
v7 -0.08652 0.08845 0.29348 
ve | ooasz7 oa6se 0.11938 
oa | oi13030 -0.03430 -0.06682 
vao | oi11700 -0.o3176 -0.02732 
vil | oios262 -0.04385 0.14470 
V12 0.10261 0.02015 -0.02564 
Vi3 | or13938 0.04137 -0.22674 
Vi4 | -oi03580 0.19129 0.10382 
Vis | oos6s5 o.oo09s o.li1s6 
vis | oossol 0.01348 0.02079 
V17 0.15252 -0.01481 -0.18668 
vae | 0.10116 -0.01063 -0.00631 
vae | -0.o2108 0.24609 -0.05391 
Vao | -0.02645 -0.12380 0.26106 
Val -0.02354 0.24486 -0.03960 
V22 -0.01849 0.24307 -0.04719 
Va3 | olo693 -0.07619 -0.03556 
图 17.31 因子 分 析 结 果 图 4 


表达 式 如 下 〈 只 保留 小 数 点 后 3 位 ) : 


F1=-0.062* 年 底 总 人 口 +0.106* 地 区 生产 总 值 -0.087* 客 运 量 +0.036* 货 运 量 


+0.130* 地 方 财政 预算 内 收入 +0.117* 地 方 财政 预算 内 支出 
+0.053* 固 定 资产 投资 总 额 +0.103*# 城 乡 居民 储蓄 年 末 余 额 


+0.139# 在 岗 职工 平均 工资 -0.036*# 年 末 邮 政局 数 +0.057*# 年 末 固 定 电话 用 户 数 


+0.088* 社 会 商品 零售 总 额 +0.153* 货 物 进出 口 总 额 
+0.101* 年 末 实 有 公共 汽车 营运 车 辆 数 -0.021* 影 剧院 数 


-0.026* 普 通 高 等 学 校 在 校 学 生 数 -0.024* 医 院 数 -0.018* 执 业 医 师 


+0.107* 环 境 污染 治理 投资 总 额 


F2=-0.030* 年 底 总 人 口 +0.013* 地 区 生产 总 值 +0.088* 客 运 量 +0.016* 货 运 量 


-0.034* 地 方 财政 预算 内 收入 -0.032* 地 方 财政 预算 内 支出 

-0.041* 固 定 资 产 投 资 总 额 10.020* 城 乡 居 民 储蓄 年 末 余 额 
+0.041* 在 岗 职 工 平均 工资 +0.191* 年 末 邮 政局 数 
+0.001* 年 末 固 定 电话 用 户 数 +0.013* 社 会 商品 零售 总 额 


-0.015* 货 物 进出 口 总 额 -0.011* 年 末 实 有 公共 汽车 营运 车 辆 数 
+0.246* 影 剧院 数 -0.124* 普 通 高 等 学 校 在 校 学 生 数 +0.245* 医 院 数 


+0.243* 执 业 医 师 -0.076* 环 境 污 染 治理 投资 总 额 


F3=0.354* 年 底 总 人 口 -0.029* 地 区 生产 总 值 +0.293* 客 运 量 +0.118* 货 运 量 


-0.007* 地 方 财政 预算 内 收入 -0.027* 地 方 财政 预算 内 支出 

+0.145* 固 定 资产 投资 总 额 -0.026* 城 乡 居民 储蓄 年 末 余 领 
-0.227* 在 岗 职工 平均 工资 10.104* 年 末 邮 政局 数 
+0.111* 年 末 固 定 电话 用 户 数 +0.021* 社 会 商品 零售 总 额 


市 综合 经 济 
WA 


选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 17.32 所 示 的 因子 得 分 数据 。 


vo wl v2 V3 yhar e 

1 Sere7s ee 54389 433300 3.41ero7 -575593.6 [3.001036]| 
2 71136 1 26228 1217394 4.84er07 2096997 
1 e796 194 18773 0 az.lyeroy ”21726529 攻 
4 0108 273 646 334107 1.55er0o7 -2902802 
站 46 G160 29348 41.08er07 163034.9 
6 174s0 a14 19700 141618 3.12er07 10ss269 
7 assez 26 14119 191l069 3.18er07 -507858.6 
8 31019 320 15670 日 93er07 31607870 
3846888 472 18000 341754 2.1300+07 3325525 = 
10 4tae73 En 8025 I661211 422er08 -820.744 
1 679924 207 15705 996994 3.42er07 -1376053 
2 366160 1162 20702 0 3.83e+07 2750722 
13 126094 266 15418 224191 3.34ey07 。 369433.4 
4 295813 25 #539 43813 1.40€+07 -657705.8 
35 233133 wl 231601 74600 ”2.33ev07 ”3513743 
16 105545 53 $350 272202 ,42e07 "286734.7 
27 4481107 i166 a0 €1164 ,04007 3450905 
18 70794 243 asaoo O248er07 829734.2 
19 264917 251 15018 és3008 3.708r07 848750.6 
20 495719 307 aeooz 日 “zader07 2472236 
2 270968 227 1s41 T2382 332€r07 -1755588 
2 5488 265 14687 1S8808 2.14er07 $09667.4 
23 265 29056 1484003 0 7.12007 414.1629 
24 say10 ol 0785 12534 6.09er07 -264758.2 
25 23037s 201 Hg79 261235 4.12er07 -494124.1 
26 S11s2 7s 168 16831 Si6170s -i224846 
27 4l36ss 21447 38739 G19723 4.23€107 。 -1053245 
28 540626 535 28673 0 3.62e0r07 "~2929076 
29 209499 268 30035 四 7264870 “3276993.7 


图 17.32 查看 数据 
图 17.33 展示 的 是 系统 提取 的 3 个 主因 子 的 相关 系数 矩阵 。 


，correlate £1 了 2 13 
(obs=35) 


2 


1.0000 
-0.0000 1.0000 
0.0000 0.0000 1.0000 


17.33 ”因子 分 析 结 果 图 5 


从 图 17.33 中 可 以 看 出 , 提取 的 3 个 主因 子 之 间 几 乎 没有 什么 相关 关系 ,这 也 说 明了 在 前 
面 对 因 子 进行 旋转 的 操作 环节 中 采用 最 大 方差 正 交 旋 转 方式 是 明智 的 。 值 得 说 明 的 是 图 中 有 的 
相关 系数 是 -0.0000 并 非 是 不 正确 的 ， 这 是 因为 Stata 14.0 只 保留 了 4 位 小 数 所 导致 的 , 例如 真 
实 的 数据 有 可 能 是 -0.00001， 那 么 结果 显示 的 就 是 -0.0000。 

17.34 展示 的 是 每 个 样本 在 前 两 个 主因 子 维度 上 的 因子 得 分 示意 图 。 

从 图 17.34 中 可 以 看 出 ， 所 有 的 样本 被 分 到 4 个 象限 ,可 以 比较 直观 地 看 出 各 个 样本 的 因 
子 得 分 分 布 情况 。 
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图 17.35 展示 的 是 本 例 因 子 分 析 的 KMO 检验 结果 。 


Kaiser-Neyer-Olkin measure of sampling adequacy 


Score variables (factor) 


Rotebon: ohogenal werimen 
Mathod prneW a component tactors 


图 17.34 因子 分 析 结 果 图 6 图 17.35 因子 分 析 结 果 图 7 
KMO 检验 是 为 了 查看 数据 是 否 适 合 进行 因子 分 析 ， 其 取 值 范围 是 0~1。 其 中 ，0.9~1 表示 
极 好 、0.8~0.9 表示 可 奖励 的 、0.7~0.8 表示 还 好 、0.6~0.7 表示 中 等 。 本 例 中 总 体 〈Overall) 
KMO 的 取 值 为 0.7898， 表 明 因 子 分 析 的 效果 还 是 不 错 的 。 
图 17.36 展示 的 是 本 例 因 子 分 析 所 提取 的 各 个 因子 的 特征 值 碎 石 图 。 


Scree plot of eigenvalues after factor 


T 


0 5 10 15 
Number 


17.36 ”因子 分 析 结果 图 8 
碎 石 图 可 以 非常 直观 地 观测 出 提取 因子 特征 值 的 大 小 情况 。 图 17.36 的 横 轴 表示 的 是 系统 
提取 因子 的 名 称 , 并 且 已 经 按 特征 值 大 小 进行 降序 排列 , 纵 轴 表示 因子 特征 值 的 大 小 情况 。 从 
图 17.36 中 可 以 轻松 地 看 出 本 例 中 只 有 前 3 个 因子 的 特征 值 是 大 于 1 的 。 
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| , 17.8 ”因子 分 析 之 后 续 分 析 


对 于 本 部 分 分 析 ， 我 们 准备 依照 提取 的 公 因子 对 各 城市 进行 分 类 及 排序 。 

操作 步骤 如 下 : 

进入 Stata 14.0， 打 开 相 关 数 据 文件 ， 弹 出 主 界面 。 

在 主 界面 的 “Command” 文 本 框 中 分 别 输入 如 下 命令 并 按键 盘 上 的 回 车 键 进行 确认 : 
generate 仁 0.4918*fl+0.2268*f2+0.1604*f3 ， 本 命令 的 含义 是 产生 “综合 得 分 "， 这 一 变量 将 最 
终 代表 各 个 城市 的 综合 经 济 实力 , 其 中 位 、 亿 、f3 是 在 进行 因子 分 析 的 时 候 对 提取 的 公 因 子 保 
存 的 变量 ， 前 面 的 系数 是 各 个 公 因 子 的 方差 贡献 率 。 

[加 设置 完毕 后 ， 等 待 输出 结果 。 


在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 17.37 和 图 17.38 所 示 的 分 析 结 果 。 
选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 17.37 所 示 的 “综合 得 分 ”变量 数据 。 


(WII 


3 
3 
3 


图 17.37 因子 分 析 之 后 续 分 析 结果 图 
可 以 对 数据 进行 排序 操作 ， 在 主 界面 的 “Command” 文 本 框 中 输入 操作 命令 : 
sort f 


并 按键 盘 上 的 回 车 键 进行 确认 ， 然 后 选择 “Data”|“Data Editor”|“Data Editor(Browse)” 
命令 ， 进 入 数据 查看 界面 ， 可 以 看 到 如 图 17.38 所 示 的 整理 后 的 数据 。 
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观察 综合 得 分 列 可 以 发 现 : 除 贵阳 因数 据 缺 失 未 参加 排名 外 ， 上 海 “ 一 骑 绝 尘 ， 一 枝 独 
秀 ”， 是 中 国 综合 经 济 实力 最 强 的 城市 ; 北京 、 广 州 两 个 城市 综合 得 分 紧 随 其 后 ， 综 合 经 济 实 
力也 是 很 强 的 ， 与 上 海 构成 前 三 甲 ， 武汉 、 宁 波 、 南 京 、 青 岛 、 成 都 、 深 圳 、 天 津 、 重 庆 、 杭 
州 等 城市 的 综合 得 分 在 0~1 之 间 ， 综 合 经 济 实力 较 强 ; 大连、 沈阳 、 长 沙 、 哈 尔 滨 、 西 安 、 
济南 、 厦 门 、 郑 州 、 福 州 、 长 春 、 昆 明 、 乌 鳞 木 齐 、 石 家 庄 、 太 原 、 拉 萨 、 合 肥 、 南 宁 、 呼 和 
浩特 、 南 昌 、 银 川 、 兰 州 、 海 口 、 西 宁 等 城市 的 综合 得 分 均 为 负 值 ， 综 合 经 济 实力 相对 较 弱 ， 
其 中 最 弱 的 是 西宁 ， 得 分 为 -0.54。 所 有 城市 的 综合 经 济 实力 排名 依次 为 : 上 海 、 广 州 、 北 京 、 
重庆 、 深 圳 、 和 天津、 杭州、 成都、 南京 、 青 岛 、 宁 波 、 武 汉 、 大 连 、 沈 阳 、 长 沙 、 哈 尔 滨 、 西 
安 、 郑 州 、 济 南 、 福 州 、 石 家 庄 、 长 春 、 昆 明 、 厦 门 、 合 肥 、 太 原 、 南 宁 、 乌 鲁 木 齐 、 南 昌 、 
呼和浩特 、 拉 萨 、 兰 州 、 海 口 、 银 川 、 西 宁 。 


17.9 ”研究 结论 


。 简单 相关 分 析 表 明 : 构成 “地 区 生产 总 值 ”的 3 个 组 成 部 分 只 有 “第 二 产业 增加 值 ” 
与 “第 三 产业 增加 值 ”之 间 具 有 很 强 的 相关 性 ， 并 且 在 0.01 的 显著 性 水 平 上 显著 ， 
其 他 的 变量 之 间 相 关 性 很 不 显著 。 

。 简单 相关 分 析 表 明 : “客运 量 ”与 “货运 量 ”之 间 虽 然 相关 系数 不 是 很 大 ， 但 是 这 种 
相关 性 却 很 强 ， 在 0.01 的 显著 性 水 平 上 显著 。 

。 简单 相关 分 析 表 明 : “地 方 财政 预算 内 收入 ”和 “地 方 财政 预算 内 支出 ”相关 系数 不 
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是 很 大 ， 而 且 这 种 相关 性 很 强 ， 在 0.01 的 显著 性 水 平 上 显著 。 

。 简单 相关 分 析 表 明 : 年 底 总 人 口 与 地 区 生产 总 值 为 正 相 关 但 相关 系数 不 大 ; 年 底 总 人 

口 与 环境 污染 治理 投资 总 额 之 间 也 为 正 相 关 而 且 相 关系 数 也 不 大 ; 地 区 生产 总 值 与 环 
境 污染 治理 投资 总 额 之 间 也 为 正 相关 ,而且 相关 系数 较 大 。 只 有 地 区 生产 总 值 与 环境 
污染 治理 投资 总 额 之 间 的 相关 关系 非常 显著 (在 0.01 的 水 平 上 显著 )。 

。 经 过 多 重 线性 回归 分 析 ， 可 以 发 现 我 国 城市 的 地 区 生产 总 值 与 社会 商品 零售 总 额 、 货 

物 进出 口 总 额 、 货 运 量 、 国 定 资产 投资 总 额 、 年 末 邮 政局 数 、 影 剧院 数 、 医 院 数 、 年 
末 实 有 公共 汽车 营运 车 辆 数 有 显著 关系 ， 与 其 他 变量 之 间 的 关系 并 不 显著 。 其 中 国定 
资产 投资 总 额 、 社 会 商品 零售 总 额 、 货 物 进出 口 总 额 、 医 院 数 、 货 运 量 对 地 区 生产 总 
值 起 正 向 作用 ， 尤 其 是 医院 数 和 货运 量 ， 每 增加 一 个 单位 ， 地 区 生产 总 值 就 分 别 增加 
4141.523 个 单位 和 196.4853 个 单位 ， 而 年 末 邮 政局 数 、 影 剧院 数 、 年 末 实 有 公共 汽 
车 营运 车 辆 数 对 地 区 生产 总 值 起 反 向 作用 。 

。 “可 以 用 3 个 公 因子 来 概括 所 有 描述 我 国 城市 综合 经 济 实力 的 指标 : 第 1 个 因子 用 来 反 
映 地 区 生产 总 值 、 货 运 量 、 地 方 财政 预算 内 收入 、 地 方 财政 预算 内 支出 、 国 定 资产 投 
资 总 额 、 城 乡 居 民 储蓄 年 末 余 额 、 在 岗 职 工 平均 工资 、 年 末 固 定 电话 用 户 数 、 社 会 商 
品 零售 总 额 、 货 物 进出 口 总 额 、 年 末 实 有 公共 汽车 营运 车 辆 数 、 环 境 污染 治理 投资 总 
额 等 变量 的 信息 ; 第 2 个 因子 用 来 反映 年 末 邮 政局 数 、 影 剧院 数 、 医 院 数 、 执 业 医师 
等 变量 的 信息 ; 第 3 个 因子 用 来 反映 年 底 总 人 口 、 客 运 量 、 普 通 高 等 学 校 在 校 学 生 数 
等 变量 的 信息 。 

。 因子 分 析 之 后 续 分 析 表 明 ， 所 有 城市 的 综合 经 济 实力 排名 依次 为 : 上 海 、 广 州 、 北 京 、 
重庆 、 深 圳 、 和 天津、 杭州、 成都、 南京、 青岛 、 宁 波 、 武 汉 、 大 连 、 沈 阳 、 长 小、 哈 
尔 滨 、 西 安 、 郑 州 、 济 南 、 和 福州、 石家庄、 长春、 昆明 、 厦 门 、 合 肥 、 太 原 、 南 宁 、 
乌鲁木齐 、 南 昌 、 呼 和 浩特 、 拉 萨 、 兰 州 、 海 口 、 银 川 、 西 宁 。 

经 过 以 上 研究 ， 我 们 可 以 从 一 种 宏观 的 视野 上 对 我 国 的 城市 综合 经 济 实力 有 一 个 比较 全 
面 的 了 解 ， 这 对 于 以 后 我 国 城市 的 发 展 有 着 重要 的 借鉴 和 指导 意义 。 例 如 ,根据 回归 分 析 部 分 
的 结论 ， 为 提高 地 区 生产 总 值 ， 我 国 各 城市 必须 要 积极 扩大 货运 量 ，“ 要 想 富 ， 先 修 路 ”这 句 
话 是 非常 有 道理 的 。 再 如 ， 因 子 分 析 之 后 续 分 析 表 明 ， 排 名 在 前 的 大 多 是 东部 城市 ， 在 后 的 基 
本 上 都 是 中 西部 城市 , 由 于 城市 经 济 往往 代表 着 一 个 地 区 的 先进 生产 力 , 所 以 为 使 我 国 经 济 均 
衡 发 展 ， 加 强 中 西部 建设 是 非常 有 必要 的 。 


17.10 “本章 习题 


使 用 《中 国 统计 年 鉴 2007》 上 的 《 中 国 2006 年 省 会 城市 和 计划 单列 市 主要 经 济 指标 统 
计 〈 包 括 市 辖 县 ) 》 数 据 (数据 已 整理 至 Stata 中 ) ， 进 行 以 下 分 析 。 


(1) 相关 分 析 
。 对 “地 区 生产 总 值 ” 和 “工业 增加 值 ” 进 行 简单 相关 分 析 。 
。 对 “客运 量 ” 和 “货运 量 ” 进 行 简单 相关 分 析 .。 
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a 
关 分 析 。 


(2) 回归 分 析 

以 “地 区 生产 总 值 ”为 因 变量 ， 以 “年 底 总 人 口 ” “客运 量 ”“ 货 运 量 ”“ 地 方 财 政 预 
算 内 收入 ”“ 地 方 财政 预算 内 支出 ” “国定 资产 投资 总 额 ” “城乡 居民 储蓄 年 末 余额 ” “在 岗 
职工 平均 工资 2 “年 末 邮 政局 数 ” “年末 固定 电话 用 户 数 ”“ 社 会 商品 零售 总 额 ” “货物 进出 
口 总 额 ” “年 末 实 有 公共 汽车 营运 车 辆 数 ”“ 影 剧院 数 ”“ 普 通 高 等 学 校 在 校 学 生 数 ”“ 医 院 
数 ”“ 执 业 医师 ”“ 环 境 污 染 治理 投资 总 额 ” 等 为 自 变量 ， 进 行 多 重 线性 回归 。 


(3) 因子 分 析 

对 构成 城市 综合 经 济 实力 的 各 个 变量 (“年 底 总 人 口 ”“ 地 区 生产 总 值 ”“ 客 运 量 ”“ 货 
运 量 ” “地方 财政 预算 内 收入 ”“ 地 方 财政 预算 内 支出 ” “固定 资产 投资 总 额 ” “城乡 居民 储 
羞 年末 余额 “在岗 职 工 平均 工资 "” “年 未 邮政 局 数 ” “年 未 固定 电话 用 户 数 ”“ 社 会 商品 零 
售 总 额 ” “货物 进出 口 总 额 ” “年 未 实 有 公共 汽车 营运 车 辆 数 ” “影剧院 数 ” “普通 高 等 学 校 
在 校 学 生 数 ”“ 医 院 数 ”“ 执 业 医师 ”“ 环 境 污染 治理 投资 总 额 ”) 提取 公 因子 。 

(4) 因子 分 析 之 后 续 分 析 

依照 提取 的 公 因子 对 各 城市 进行 分 类 及 排序 。 
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第 18 章 Stata 在 旅游 业 中 的 应 用 


旅游 业 作 为 第 三 产业 的 重要 组 成 部 分 ， 是 世界 上 发 展 最 快 的 新 兴 产 业 之 一 。 它 一 方面 能 
够 满足 人 们 日 益 增长 的 物质 和 文化 的 需要 , 另 一 方面 又 直接 或 者 间接 地 促进 国民 经 济 有 关 部 门 
的 发 展 。 随 着 社会 的 发 展 ， 旅 游 业 在 国民 经 济 中 的 地 位 越 来 越 重要 ， 也 越 来 越 引 起 政府 官员 和 
社会 学 者 的 重点 关注 。 本 章 就 来 介绍 一 下 Stata 在 对 旅游 业 研究 中 的 应 用 。 


18.1 ”研究 背景 及 目的 


背景 一 : 进入 21 世纪 以 来 ， 中 国旅 游 业 快速 发 展 ， 旅 游人 数 迅速 增加 。 
根据 《中 国 投 资 年 鉴 2007》 提 供 的 数据 〈 表 18.1) 可 以 发 现 ， 除 2003 年 稍 有 下 降 外 ， 无 
论 是 国内 旅游 人 数 还 是 入 境 旅游 人 数 都 呈现 出 不 断 递增 的 趋势 。 


表 18.1 国内 旅游 人 数 和 入 境 旅游 人 数 统计 (2001 一 2006 年) 


TCR 


景 二 : 伴随 着 旅游 人 数 的 不 断 增加 ， 我 国 的 旅行 社 个 数 和 星 级 饭店 数 增长 迅速 。 
根据 《中 国 投资 年 鉴 2007》 提 供 的 数据 〈 表 18.2) 可 以 发 现 ， 从 2001 年 到 2006 年 ， 旅 
行 社 个 数 和 星 级 饭店 个 数 不 断 递增 。 


表 18.2 旅行 社 个 数 和 星 级 饭店 个 数 统计 〈2001 一 2006 年 ) 


2002 年 
旅行 社 个 数 ”| 10 532 11 552 
星 级 饭店 个 数 | 7358 8 880 9751 
背景 三 : 伴随 着 旅游 人 数 、 旅 行 社 个 数 的 增加 ， 旅 游 收 入 不 断 增 长 ， 而 且 速度 很 快 。 
根据 《中 国 投资 年鉴 2007》 提 供 的 数据 ( 表 18.3) 可 以 发 现 ， 除 2003 年 稍 有 下 降 外 ， 无 
论 是 国际 旅游 收入 还 是 国内 旅游 收入 都 呈现 出 不 断 递增 的 趋势 。 


表 18.3 旅游 收入 统计 (2001 一 2006 年 ) 


年 份 2001 年 2002 年 2003 年 2004 年 2005 年 2006 年 
国际 旅游 收入 /亿美 元 | 187.92 203.85 184.06 257.39 292.96 339.49 
国内 旅游 收入 / 亿 元 | 3 522.36 3 878.36 3 442.27 4710.71 “| 5285.86 | 6 229.74 


一 般 来 说 ， 旅 游 消 费 的 地 域 差异 不 但 是 地 区 经 济 发 展 不 平衡 的 集中 表现 和 缩影 ， 而 且 反 
映 着 地 区 间 文 化 和 人 民 消 费 特点 的 差异 , 所 以 从 这 两 个 角度 来 说 , 按照 不 同 的 分 类 指标 对 我 国 


\ 
NN 
N 
弛 区 居民 的 人 均 旅游 消费 支出 进行 分 解 分 析 研 究 ,并 且 从 量 上 明确 我 国 居民 旅游 消费 性 支出 
区 域 差异 ， 具 有 非常 重大 的 意义 。 
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18.2 ”研究 方法 


本 例 采 用 的 数据 有 《中 国 2007 年 城镇 居民 国内 旅游 出 游人 均 花 费 情 况 统 计 按 城市 、 性 
别 和 年 龄 分 组 ) 》《 中 国 2007 年 城镇 居民 国内 旅游 出 游人 均 花费 情况 统计 按 城 市 和 家 庭 月 
平均 收入 分 组 ) 》《 中 国 2007 年 城镇 居民 国内 旅游 出 游人 均 花费 情况 统计 按 城 市 和 旅游 目 
的 分 组 ) 》《 中 国 2007 年 城镇 居民 国内 旅游 出 游人 均 花 费 情况 统计 ( 按 城 市 和 文化 程度 分 组 ) 》 
《中 国 2007 年 城镇 居民 国内 旅游 出 游人 均 花 费 情况 统计 按 城市 和 职业 分 组 ) 》《 中 国 2007 年 国 
家 级 风景 名 胜 区 统计 》 等 ， 这 些 数据 都 摘自 《中 国 国内 旅游 抽样 调查 资料 2008》。 
因为 我 们 研究 的 主要 目的 是 找 出 各 地 区 的 相应 指标 或 数据 之 间 存 在 的 相似 性 或 相 异 性 ， 
所 以 主要 采用 聚 类 分 析 方 法 对 相关 数据 展开 分 析 。 聚 类 分 析 是 采用 定量 数学 方法 , 根据 样品 怠 
指标 的 数值 特征 ， 对 样品 进行 分 类 来 推断 各 样品 之 间 亲 玻 关系 的 一 种 分 析 方法 。 
基本 思路 是 : 一 方面 ， 针 对 中 国 2007 年 城镇 居民 国内 旅游 出 游人 均 花 费 情况 的 各 种 不 同 
分 类 分 别 使 用 聚 类 分 析 对 各 地 区 进行 聚 类 ， 另 一 方面 ， 使 用 聚 类 分 析 方 法 对 中 国 2007 年 部 分 
国家 级 风景 名 胜 区 进行 聚 类 。 


18.3 ”数据 分 析 与 报告 


18.3.1 各 城市 国内 旅游 出 游人 均 花 费 按 性 别 和 年 龄 进行 的 聚 类 分 析 


C= 下 载 资源 video\chap18\… 


醒 下 载 资源 \sample\chap18\ 案 例 18.1.dta 


表 18.4 是 2007 年 中 国 22 个 城市 城镇 居民 国内 旅游 出 游人 均 花费 按 性 别 和 年 龄 进行 分 类 
的 数据 。 


表 18.4 中国 2007 年 城镇 居民 国内 旅游 出 游人 均 花 费 情况 统计 〈 按 性 别 和 年 龄 分 组 ) (单位 : 元 /人 ) 
年 龄 


65 岁 及 以 上 | 45~65 岁 


太原 | 18189 |1402.5 
呼和浩特 | 2306.5 | 1 880.9 | 1096.7 
272.4 


沈阳 
大 连 
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( 续 表 ) 

城市 性 别 年 龄 

男 女 65 岁 及 以 上 | 45~65 岁 | 25~44 岁 | 15~24 岁 | 0~14 岁 
长 春 2221.6 “| 2 956.7 2387.5 3187.6 |2218;5 2 600.0 1864.5 
哈尔滨 ”| 2477.2 1 459.4 1289.8 2807.1 1423.7 983.1 372.8 
上 海 1103.6 |706.4 485.5 910.0 1 032.6 640.4 670.8 
南京 2441.1 2 185.2 1641.1 2605.0 2 327.6 2197.9 1 560.2 
无 锡 10703 1 492.6 950.0 469.3 
苏州 762.4 616.7 180.5 332.2 
杭州 1000.1 769.2 1622.3 393.0 
青岛 1397.1 13843 1549.2 419.1 
郑州 921.3 865.7 438.5 628.3 
武汉 988.5 996.4 733.1 431.5 
长 沙 1 191.4 904.6 1382.7 1446.0 711.3 
广州 777.5 473.9 977.0 690.2 442.0 
深圳 2923.3 983.5 2996.7 2 947.8 1926.8 1064.5 
银川 1473.1 1 648.4 1124.5 1210.2 
乌鲁木齐 | 1200.9 1 182.4 834.8 584.2 
在 用 Stata 进行 分 析 之 前 , 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 8 个 变量 ， 分 别 为 “ 城 


市 ”“ 男 ”“ 女 ”“65 岁 及 以 上 ”“45~65 岁 ”“25~44 岁 ”“15~24 岁 ”“0~14 岁 ”。 我 们 
将 这 8 个 变量 分 别 定义 为 VI~V8， 然 后 录入 相关 数据 。 录 入 完成 后 数据 如 图 18.1 所 示 。 


n 四 


图 18.1 案例 18.1 数据 
聚 类 分 析 的 分 析 步 又 如 下 : 
四 进入 Stata 14.0， 打 开 相 关 数 据 文 件 ， 弹 出 主 界面 。 
加 在 主 界面 的 “Command” 文 本 框 中 分 别 输入 如 下 命令 并 按键 盘 上 的 回 车 键 进 行 确认 。 


e egen zv2=std(V2): 本 命令 旨 在 对 V2 变量 数据 进行 标准 化 处 理 ， 标 准 化 处 理 方式 是 使 
变量 的 平均 数 为 0 而 且 标准 差 为 1 。 

。 egen zv3=std(V3): 本 命令 旨 在 对 V3 变量 数据 进行 标准 化 处 理 ， 标 准 化 处 理 方式 是 使 
变量 的 平均 数 为 0 而 且 标准 差 为 1。 

e egen zv4=std(V4): 本 命令 旨 在 对 V4 变量 数据 进行 标准 化 处 理 ， 标 准 化 处 理 方式 是 使 
变量 的 平均 数 为 0 而 且 标准 差 为 1。 

e egen Zzv5=std(V5): 本 命令 旨 在 对 V5 变量 数据 进行 标准 化 处 理 ， 标 准 化 处 理 方式 是 使 
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变量 的 平均 数 为 0 而且 标准 差 为 1。 

。 egen zv6=std(V6): 本 命令 旨 在 对 V6 变量 数据 进行 标准 化 处 理 ， 标 准 化 处 理 方式 是 使 
变量 的 平均 数 为 0 而 且 标准 差 为 1。 

。 ”egen zv7=std(V7): 本 命令 旨 在 对 V7 变量 数据 进行 标准 化 处 理 ， 标 准 化 处 理 方式 是 使 
变量 的 平均 数 为 0 而 且 标准 差 为 1。 

。 egen zv8=std(V8): 本 命令 旨 在 对 V8 变量 数据 进行 标准 化 处 理 ， 标 准 化 处 理 方式 是 使 
变量 的 平均 数 为 0 而 且 标准 差 为 1。 

。 cluster kmeans zv2 zv3 zv4 zv5 zv6 zv7 Zzv8,k(2): 本 命令 旨 在 对 V2~V8 的 标准 化 变量 
进行 “K 个 平均 数 的 聚 类 分 析 ”， 设 定 的 聚 类 数 是 2。 

。 cluster kmeans zv2 zv3 zv4 Zv5 zv6 zv7 zv8.k(3): 本 命令 旨 在 对 V2~V8 的 标准 化 变量 
进行 “K 个 平均 数 的 聚 类 分 析 ”， 设 定 的 聚 类 数 是 3。 

® cluster kmeans zv2 zv3 Zv4 Zv5 zv6 zv7 Zzv8,k(4): 本 命令 旨 在 对 V2~V8 的 标准 化 变量 
进行 “K 个 平均 数 的 聚 类 分 析 ”， 设 定 的 聚 类 数 是 4。 


设置 完毕 后 ， 按 键盘 上 的 回 车 键 , 等待 输出 结果 。 
在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 18.2~ 图 18.11 所 示 的 分 析 结 果 。 


1. 数据 标准 化 处 理 
在 分 析 过 程 中 前 7 条 Stata 命令 旨 在 对 数据 进行 标准 化 处 理 ， 选 择 的 标准 化 处 理 方式 是 使 
变量 的 平均 数 为 0 而 且 标 准 差 为 1。 之 所 以 这 样 做 是 因为 进行 聚 类 分 析 的 变量 都 是 以 不 可 比 的 
单位 进行 的 测度 , 它们 具有 极为 不 同 的 方差 , 对 数据 进行 标准 化 处 理 可 以 避免 使 结果 受到 具有 
最 大 方差 变量 的 影响 。 在 输入 前 7 条 Stata 命令 并 且 分 别 按键 盘 上 的 回 车 键 进行 确认 后 ， 选 择 
“Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 到 如 图 18.2 
所 示 的 变换 后 的 数据 。 


veosereseresee uae 


图 18.2 ” 按 性 别 和 年 龄 进行 的 聚 类 分 析 结果 图 1 


2. K 个 平均 数 的 聚 类 分 析 


图 18.3 展示 的 是 设 定 聚 类 数 为 2, 然后 使 用 “K 个 平均 数 的 聚 类 分 析 ” 方 法 进行 分 析 的 结 
果 。 在 输入 第 8 条 Stata 命令 并 且 分 别 按键 盘 上 的 回 车 键 进行 确认 后 ， 可 以 看 到 系统 产生 了 一 
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个 新 的 聚 类 变量 。 
选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 18.4 所 示 的 聚 类 数据 。 


wa Bel 4 ms ae m7 ve -clus-2 

2 EY rrr TT : 
: 天 二 :65193615728824 O308 ,5807921 -926349 .1776909 1 
本 让 -7294008 .6436833 .asi -9878448 .I01000 .780736 
+ A207 S8757 0422779 .055384 455 : 
s 49674337 2127063 。 -65510793 -1473107 -981167 > 
< Ce 44280 1351698 -lot467 -269c02 : 
7 e3500194 1267838 12456556 -221717 -1.166993 1 
: 903083808938 37453373 +767706 > 
， C2032787 Ao606724 .2519634 -3257068 ,70991893 2 
aa esays6 -058 36417 人 -68004684 0099931 : 
四 73369447 675966 9389306963 2 
EE 无 大 -11399755 -932104014 ~.6844487 -JC05084 -16855144 ~.4787925 至 
3 WN .13294526 .90049876 00 了 
加 MAN S558974 -6161479 -4660741 -7731147 883713 -656354 : 
5 将 总 -.36004731 630087 “.6089124 .3890320 .7728034 “59956031 3 
16 郑州 5665381 1700919 ,5781965 -6271088 4,007569 .1069145 1 
条 下 区 -人 人 949 70977886938809 3130639934064 =.$667495 : 
四 DS -71479041 146179 .49737846077508 。 .0847196 : 
本 广州 “999548 900768 .71449873 ds17669 -6040194 542317 : 
an 207620% -20744843 有 9 26672088 276706 06018365 2 
|, cluster kmeans zv2 zv3 zv4 zv5 zv6 zv7 zv8,k(2) 2 wm 川 IAINY -1.025664 .0031444 。 60893545 .094674 24.245212 蝇 
luster nane: _olus_1 32 S00 .ol85768 -iaet801 .1697867 .211421 : 


18.3” 按 性 别 和 年 龄 进行 的 聚 类 分 析 结果 图 2 图 18.4 按 性 别 和 年 龄 进行 的 聚 类 分 析 结果 图 3 


在 图 18.4 中 ， 可 以 看 到 所 有 的 观测 样本 被 分 为 两 类 ， 其 中 呼和浩特 、 哈 尔 滨 、 长 春 、 南 
京 、 深 圳 被 分 到 第 2 类 ， 其 他 的 省 市 被 分 到 第 1 类 。 

为 观测 两 类 样本 的 特征 ， 可 以 对 数据 进行 排序 操作 ， 在 主 界面 的 “Command” 文 本 框 中 
输入 操作 命令 : 


sort clus 1 | 
并 按键 盘 上 的 回 车 键 进行 确认 ， 然 后 选择 “Data”| “Data Editor”| “Data Editor(Browse)” 
命令 ， 进 入 数据 查看 界面 ， 可 以 看 到 如 图 18.5 所 示 的 整理 后 的 数据 。 


a za = zw ve a ze ow 
1 许久 .204724 。 610087 019424 。 .38969028 T720014 -53966094 全 
NNN S8974 461479 -kt0741 77913947 B497119 45693854 
3 I 09924 “e050 -1.142901 “1.95265 -1.104487 -9769602 
4 Rm S70 9 5639904 .0428934 00033334 -ere7 证 
s ee] | 
‘ 区 | 
7 上 而 -one -62088 -164t748 -cnocer5 .ooms 8 
站 咱 -ionsee4 .oonlet4 ,Gossss5 0005676 1.245212 obo 
9 Ee -e7007724 .63489509 -a12042 -S32408 -5007495 1 
260。 入 开 .ae .os -De -st -to 0 
2 WN -290s26 -8049878 ~.6040240 -1 .2408 -rortli 
四 广州 “99998489oo7663 .749873 ~ -eol -sony 0 
四 击 放 应 -739400 .0636829 -8631 ~ 3010002 =.70473 .0 
34 大 过 -1.27710 -opt 13647904 se -224717 -ii66l9) 天 
于 无 明 .34139755 “好 3040 ,6444447 。 ,15605084 ,10955144 -4797925 关 
天 了 SS 
7 商 几 ”6535164 -5728834 ~,6101JO8 -S807921 -9263219 -1776909 
1 时 让 区 .37oft48 .2092747 1.606724 .2919604 -1325768 7072789 0 
的 i022 .00459 1.50255 2.453372 2.707706 天 加 
2 ws 05 ean288 i369447 467s366 itto 2.0s3028 天 
0 
| 


18.5 按 性 别 和 年 龄 进行 的 聚 类 分 析 结 果 图 4 


可 以 看 到 第 2 类 所 代表 的 人 均 旅游 消费 支出 特点 是 无 论 男女 老少 花费 支出 总 体 上 相对 较 高 ， 
第 1 类 所 代表 的 人 均 旅游 消费 支出 特点 是 无 论 男女 老少 各 年 龄 段 花费 支出 总 体 上 相对 较 低 。 
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\\NNN 并 NN 
江 \ 让 
、、 \\NA\ 记 \ 例 # 和 (和 2 本 \\ \ 放 、 
图 18.6 展示 的 是 设 定 聚 类 数 为 3， 然 后 使 用 “K 个 平均 数 的 聚 类 分 析 ” 方 法 进行 分 析 的 结 
果 。 在 输入 第 9 条 Stata 命令 并 且 分 别 按键 盘 上 的 回 车 键 进行 确认 后 ， 可 以 看 到 系统 产生 了 一 
个 新 的 变量 ， 聚 类 变量 _clus 2 (cluster name: clus 2) 。 


~ cluster kmeans zy2 zy3 zv4 zy5 zv6 zv7 zy8,k(3) 
Cluster name: clus 2 


图 18.6 按 性 别 和 年 龄 进行 的 聚 类 分 析 结 果 图 5 


选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 18.7 所 示 的 _clus_2 数据 。 

从 图 18.7 中 可 以 看 到 ， 所 有 的 观测 样本 被 分 为 3 类 ， 其 中 长 春 、 南 京 、 呼 和 浩特 、 深 圳 
属于 第 2 类， 青岛、 长沙、 银川、 乌鲁木齐 、 太 原 、 哈 尔 滨 属 于 第 3 类 ， 其 他 城市 属于 第 1 
类 。 


1 Ba mv a a Bd lus el 
1 721 .60087 ~.6019124 .4498928 .7728014 ~.5956034 日 3 
2 全 MI-.5558374 -6161479 ~,4660741 ~.7791347 .8897119 ~,6563154 日 1 
3 这 由“-1.091324 -8581841 -1.142301 -1.351635 -1.104487 .99363602 7 1 
4 我 抽 2590782 -A691SI6 -S639904 .0425931 -~.0222234 -1658237 2 1 
日 MN -S665384 .3700919 -S781965 -~.627i088 -1.00563 -~,1088146 四 a 
‘ D959 772 077508 0047186 a 
7 上 商 ”-.7422578 ,8849863 -~,62058 ,3641748 -.6806655 -0099231 中 1 
' WN 。 ,343963 -1.025664 ,0091044 .6059555 093567# .245212 1 了 
ER 0244 .7007721 -6318509 -4212042 -S124081 .5667435 1 
ln 乌 外 水 齐 “-.0630246 2.108969 .0185768 .1291801 -3637567 。 -.2134]1 四 天 
1 MM 94526 ~.0049878 ~.6040258 -1.01999 -4,412408 ~.7978142 4 1 
2 广州 -51513548 ,90907683 ~.744I072 ~.4547669 ~.6010494 ~.542747 2 机 
uy 而 源 庄 ~.7294009 ,0526829 .A56212 ,9872448 .010002 ~.7807162 4 1 
34 大 难 “-1.277303 -3500291 -1.267838 -1.456556 -1.221737 -1.266397 2 1 
15 无 姑 9 -和 010404 64407 。 ,15058084 .19583244 ,4707925 2 
26 EE 了 
27 天 辐 -68383263 “8718846808708 .99807921 -的 693219 ,1776909 加 
DEL 日 了 
人 0412 1.70273 1083483 1.502825 .450372 2767706 2 日 
20 N00 2 2 
21 村 和 膨 特 .995307 。 1.357197 。 1.2706) ,6851079 .1479707 ,3614078 2 | 
于 2.076208 ~.2074481 4.429125 2.657028 1.176706 ,3064016 : 


图 18.7 ” 按 性 别 和 年 龄 进行 的 聚 类 分 析 结 果 图 6 


为 观测 3 类 样本 的 特征 ， 可 以 对 数据 进行 排序 操作 ， 在 主 界面 的 “Command” 文 本 框 中 
输入 操作 命令 : 


sort clus 2 


并 按键 盘 上 的 回 车 键 进行 确认 ， 然 后 选择 “Data”| “Data Editor”|“Data Editor(Browse)” 
命令 ， 进 入 数据 查看 界面 ， 可 以 看 到 如 图 18.8 所 示 的 整理 后 的 数据 。 
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: -1.09924 
> 和 566 时 
3 玩 乌 -2199755 
+ 大 时 -1.277302 
5 五 寄 谋 -7294003 
在 五 区 -62462447 
7 上 -7a3257 
s 广州 .59535 人 
s WN -e294526 
in 天 三.655161 
了 人 074 
图 共识 -2530762 
| 

| 

27 柏 涂 。 .149538 二 
35 与 积木 开 ~-,9630248 
1 六 天 .2964925 
20 只 年 六 .705048 
a 作证 396734 
a 903 


图 18.8 按 性 别 和 年 龄 进行 的 聚 类 分 析 结 果 图 7 


14 


.3700919 


-92320401 
3500491 


0526829 


.7007724 
88043860 
-9007653 
.#049078 
-57289394 
66414793 
693536 


33147933 


01883639 
.128857 
“2092787 

30007 


-1.05664 


-1.142008 
6 
-es44487 
-1.207838 
50012 
30509 
-0058 
74387z 
-co4ozss 
S1008 
-660743 
-S633304 


24436479 
os57658 
$07055 
1.606724 
.6043124 
.0031844 
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1251635 
71008 
.3605084 


-1.456556 
-3872408 
22042 
1647 人 
57663 
-1.049783 
-59807323 
7792347 


-0025331 


4873721 
"12090 
0422779 
3074 
0303928 
6059555 


-1.104487 ~,9369602 
-10003569 ~.4006146 
1855444 ~.4787925 
-1.221717 -1.166193 


.303000z .7887367 


-50934081 -5667495 
6406655 .09099231 
01019 -542337 
-492188 .7978112 
31219 -3776909 


897119 .65609384 


0222234 ~.4658237 


6077508 。 .0843186 


3697567 -281431 


.90553384 .1374355 


-201325768 .70789 


-7724014 .5956034 
.09935678 。 1.345232 


sl -clus-z 


从 图 18.8 中 可 以 看 到 第 2 类 所 代表 的 人 均 旅 游 消 费 支出 特点 是 无 论 男女 老少 花费 支出 总 
体 上 相对 最 高 ,第 1 类 所 代表 的 人 均 旅游 消费 支出 特点 是 无 论 男女 老少 各 年 龄 段 花 费 支出 总 体 
上 相对 最 低 ， 第 3 类 则 表示 中 等 水 平 。 
图 18.9 展示 的 是 设 定 聚 类 数 为 4, 然后 使 用 “K 个 平均 数 的 聚 类 分 析 ” 方 法 进行 分 析 的 结 
果 。 在 输入 第 10 条 Stata 命令 并 且 分 别 按键 盘 上 的 回 车 键 进行 确认 后 , 可 以 看 到 系统 产生 了 一 
个 新 的 变量 : 聚 类 变量 clus 3 (cluster name: clus 3) 。 


~ oluster kmeans zv2 zy3 Zzv4 zy5 zy6 zy7 zv8,k(4) 
=lusrer name: _clus 3 


图 18.9 按 性 别 和 年 龄 进行 的 聚 类 分 析 结 果 图 8 


选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 


到 如 图 18.10 所 示 的 _clus_3 数据 。 


图 18.10 技 性 别 和 年 上 进行 的 大 分 析 结果 图 9 


Ta my 


从 图 18.10 中 可 以 看 到 所 有 的 观测 样本 被 分 为 4 类， 其 中 长 春 、 南 京 、 呼 和 浩特 、 深 圳 属 
于 第 3 类， 沈阳、 大 连 、 苏 州 属于 第 2 类 ， 青岛、 长沙 、 银 川 、 乌 鲁 木 齐 、 太 原 、 哈 尔 滨 属于 
第 4 类， 其 他 城市 属于 第 1 类 。 从 图 18.9 中 很 难看 出 各 个 类 别 的 特征 ， 可 以 对 数据 进行 排序 
操作 ， 在 主 界面 的 “Command” 文 本 框 中 输入 操作 命令 : 
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4 


、、、、、 , | 


RE 
ECEEECRSES 


并 按键 盘 上 的 回 车 键 进行 确认 ， 然 后 选择 “Data”| “Data Editor”|“Data Editor(Browse)” 
命令 ， 进 入 数据 查看 界面 ， 可 以 看 到 如 图 18.11 所 示 的 整理 后 的 数据 。 

从 图 18.11 中 我 们 可 以 看 出 , 第 3 类 所 代表 的 人 均 旅游 消费 支出 特点 是 无 论 男女 老少 花费 
支出 总 体 上 相对 最 高 ,第 2 类 所 代表 的 人 均 旅 游 消 费 支 出 特点 是 无 论 男女 老少 各 年 龄 段 花 费 支 
出 总 体 上 相对 最 低 , 第 4 类 所 代表 的 人 均 旅 游 消 费 支出 特点 是 无 论 男女 老少 各 年 龄 段 花费 支出 
总 体 上 相对 较 高 ,第 1 类 所 代表 的 人 均 旅游 消费 支出 特点 是 无 论 男 女 老 少 各 年 龄 段 花费 支出 总 
体 上 相对 较 低 。 

在 前 面 的 章节 中 也 提 到 过 ， 划 分 聚 类 分 析 的 特点 是 需要 事先 制定 拟 分 类 的 数量 。 究 竟 分 
成 多 少 类 是 合理 的 , 这 是 没有 定论 的 。 用户 需 要 根据 自己 的 研究 和 需要 及 数据 的 实际 特点 加 入 
自己 的 判断 。 在 上 面 的 分 析 中 ， 我们 尝试 着 把 样本 分 别 分 为 2、3、4 类 进行 了 研究 ， 可 以 看 出 
把 数据 分 成 两 类 是 过 于 粗糙 的 , 而 且 两 个 类 别 所 包含 的 样本 数量 的 差别 也 是 比较 大 的 , 而 把 数 
据 分 成 3 类 是 比较 合适 的 。 读 者 可 以 再 把 数据 分 成 5 类 、6 类 或 者 其 他 数量 的 类 别 进行 研究 ， 
观察 分 类 情况 ， 找 出 自己 认为 最 优 的 分 类 。 


a mm a av nk my -cwi -am -clw- 
~ a 3 4 
4 


上 


WSI ES ov“ 


图 18.11 按 性 别 和 年 龄 进行 的 聚 类 分 析 结 果 图 10 


通过 聚 类 分 析 得 到 的 研究 结论 是 : 按 性 别 和 年 龄 进行 聚 类 分 析 时 ， 青 岛 、 长 沙 、 银 川 、 
乌鲁木齐 、 太 原 、 哈 尔 滨 等 城市 的 城镇 居民 无 论 男女 老少 ， 其 2007 年 人 均 旅 游 消 费 支 出 都 处 
于 全 国 中 档 水 平 上 ; 长 春 、 南 京 、 呼 和 浩特 、 深 圳 等 城市 的 城镇 居民 无 论 男女 老少 ， 其 2007 
年 人 均 旅 游 消费 支出 都 处 于 全 国 高 档 水 平 上 ; 除 以 上 城市 之 外 的 其 他 城市 的 城镇 居民 无 论 男女 
老少 ， 其 2007 年 人 均 旅游 消费 支出 都 处 于 全 国 低档 水 平 上 。 
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表 18.5 是 2007 年 我 国 
表 18.5 我 国 2007 年 城镇 居民 国内 旅游 出 游人 均 花 费 情 况 统计 〈 按 职业 分 组 ) 
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AN 
\\\ 


\\\\ 


22 个 城市 城镇 居民 国内 旅游 出 游人 均 花 费 按 职业 进行 分 类 的 数据 。 


(单位 : 元 /人 ) 


城市 公务 员 企 事业 管理 人 员 | 技术 人 员 商贸 人 员 亚 伙 
北京 1 887.9 1270.8 1091.9 1289.4 733.4 
石家庄 686.3 813.2 
太原 331.8 1207.7 
呼和浩特 2553.1 3 077.8 
沈阳 299.2 281.8 
大 连 342.8 277.5 
长 春 1492.2 986.7 
哈尔滨 1484.4 845.0 
上 海 819.6 759.4 
南京 1985.9 1641.2 
无 锡 Io |15522 |239%8.8 |1425.6 7062 
苏州 [2332 |1il40 |2189 5183 4019 
杭州 728.8 673.0 
青岛 1407.5 1047.7 
郑州 6433 6913 
武汉 704.7 803.5 
长 沙 1022.3 995.8 
广州 | 11828 |9401 |909 |762 829.7 
深圳 2247.8 3934.3 
银川 1152.6 1465.8 
乌鲁木齐 1959.7 890.0 930.8 
在 用 Stata 进行 分 析 之 前 , 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 6 个 变量 , 分 别 为 “城市 ”、 


“公务 员 ”“ 企 事 


业 管 理 人 员 ”“ 技 术 人 员 ”“ 商 贸 人 员 ”“ 工 人 ”。 


义 为 VI~V6， 然 后 录入 相关 数据 。 录 入 完成 后 数据 如 图 18.12 所 示 。 


vi 


1 北京 1787.9 
2 天 星 

3 五 皮 庄 1241,6 
4 太原 183.4 
s 喇 和 舍 特 3381.6 
日 这 虽 G32.5 
7 大 奸 1336.9 
外 长春 2547 
3 EL 559.3 
10 上 上海 。 

11 南京 

32 无 如 0 
13 苏州 233.2 
14 杯 州 

15 于 高 。 

16 a] 776.9 
17 Er 1113.7 
18 长 沙 939.2 
13 广州 1172.8 
20 Ba 4412.8 
21 时 省 1448.4 
22 乌 旬 水 齐 1754.8 


图 18.12 案例 18.2 数据 


461.3 


w 
1091.9 
367.3 
E24.4 
1076.2 
1945.8 
374.2 
363 
1815.8 
1997.3 
1176 
2987.7 
2398.8 
218.9 
987.9 
1s66.6 
1732.5 
1500.3 
1926.2 
370.9 
1871.4 
2133.4 
1353.7 


vs 


我 们 将 这 6 个 变量 分 别 定 
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人 


\ \ 
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N\A 


聚 类 分 析 的 分 析 步 又 如 下 : 


进入 Stata 14.0， 打 开 相 关 数据 文件 ， 弹 出 主 界面 。 
加 在 主 界面 的 “Command” 文 本 框 中 分 别 输入 如 下 命令 并 按键 盘 上 的 回 车 键 进 行 确认 。 


egen zv2=std(V2): 本 命令 旨 在 对 V2 变量 数据 进行 标准 化 处 理 ， 


变量 的 平均 数 为 0 而 且 标准 差 为 1。 


egen zv3=std(V3): 本 命令 旨 在 对 V3 变量 数据 进行 标准 化 处 理 ， 


变量 的 平均 数 为 0 而 且 标准 差 为 1。 


egen zv4=std(V4): 本 命令 旨 在 对 V4 变量 数据 进行 标准 化 处 理 ， 


变量 的 平均 数 为 0 而 且 标准 差 为 1。 


egen zv5=std(V5): 本 命令 旨 在 对 V5 变量 数据 进行 标准 化 处 理 ， 


变量 的 平均 数 为 0 而 且 标 准 差 为 1。 


egen zv6=std(V6): 本 命令 旨 在 对 V6 变量 数据 进行 标准 化 处 理 ， 


变量 的 平均 数 为 0 而 且 标 准 差 为 1。 


、、 


标准 化 处 理 方式 是 使 
标准 化 处 理 方式 是 使 
标准 化 处 理 方式 是 使 
标准 化 处 理 方式 是 使 


标准 化 处 理 方式 是 使 


cluster kmeans zv2 zv3 zv4 zv5 zv6,k(2): 本 命令 旨 在 对 V2~V6 的 标准 化 变量 进行 “K 


个 平均 数 的 聚 类 分 析 ”， 设 定 的 聚 类 数 是 2。 


cluster kmeans zv2 zv3 zv4 Zzv5 zv6,k(3): 本 命令 旨 在 对 V2~V6 的 标准 化 变量 进行 “K 


个 平均 数 的 聚 类 分 析 ”， 设 定 的 聚 类 数 是 3。 


cluster kmeans zv2 zv3 zv4 Zzv5 Zzv6,k(4): 本 命令 旨 在 对 V2~V6 的 标准 化 变量 进行 “K 


个 平均 数 的 聚 类 分 析 ”， 设 定 的 聚 类 数 是 4。 


国 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 
在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 18.13~ 图 18.22 所 示 的 分 析 结 果 


1. 数据 标准 化 处 理 

在 分 析 过 程 中 前 5 条 Stata 命令 则 在 对 数据 进行 标准 化 处 理 ， 选 择 的 标准 化 处 理 方式 是 使 
变量 的 平均 数 为 0 而 且 标准 差 为 1。 之 所 以 这 样 做 是 因为 我 们 进行 聚 类 分 析 的 变量 都 是 以 不 可 
比 的 单位 进行 的 测度 , 它们 具有 极为 不 同 的 方差 , 对 数据 进行 标准 化 处 理 可 以 避免 使 结果 受到 
具有 最 大 方差 变量 的 影响 。 在 输入 前 5 条 Stata 命令 并 且 分 别 按键 盘 上 的 回 车 键 进行 确认 后 ， 
选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 到 如 
图 18.13 所 示 的 变换 后 的 数据 。 
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1 1289.4 733.4 
这 741.1 B24.2 
3 586.3 13.2 
4 331.8 1207.7 
Ss 2553.1 3077.8 
6 233.2 231.8 
7 342 277.5 
8 1492.2 336.7 
s 1484.4 345 
10 B19.6 753.4 
1 1385.3 1641.2 

32 1425.6 706.2 

3 S17.3 401.9 
14 728.8 73 
35 1407.5 1047.7 
16 643.3 691.3 
17 704.7 B03.5 
18 1022.3 995.9 
19 726.2 B29.7 

20 2247.8 3934.3 
21 11s2.6 1465.8 
22 890 930.8 


2. K 个 平均 数 的 聚 类 分 析 


tata 在 


章 
\\AA\\\\\\\\\\\\\A\\\\ 


\ 


ev 


18.14 展示 的 是 设 定 聚 类 数 为 2， 然后 使 用 “K 个 平均 数 的 聚 类 分 析 ” 方 法 进行 分 析 的 
结果 。 在 输入 第 6 条 Stata 命令 并 且 分 别 按键 盘 上 的 回 车 键 进行 确认 后 ， 我 们 可 以 看 到 系统 产 


， cluster kmeans zv2 zv3 zv4 zv5 zv6,k(2) 
luster name: clus 1 


18.14” 按 职业 进行 的 聚 类 分 析 结 果 图 2 
选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 


生 了 一 个 新 的 聚 类 变量 。 


到 如 图 18.15 所 示 的 聚 类 数据 。 


vw Er Er 
1 北京 -4509933 
2 天 给 “49953953 -643227 
3 五 亦 认 -423907 -69466983 
4 太原。 4267627 .4124467 
时 和 陆 特 1.436787 。 1.098885 
‘ WO .9705867 -1.237194 
? 大 加 -5178774 -1.299184 
区间 .7477361 。 1. 和 1884 
3 本 本 。 ,7587556 ,85283 
10 上 赂 .2076046 .4584498 
1 商 训 1.992846 .S990098 
2 无 因 -49383268 -ls20246 
2 WN 97 .6175823 
14 杭州 。 .2631448 -3771005 
1s 101338 .57353901 
16 是 败 -8403847 -lS32995 
37 ER -53869939 -7425251 
8 KD S799078 
19 广州 “41856564 -8021401 
20 R2422109 1.969786 
a1 WN .2332998 8411382 
367005 -1.311033 


Em 
487912 
-6245 
236709 
-50938986 
.7073593 
-14325393 
.S08212 
S25384 
.7794479 
-.3701sok 
2.165789 
1341459 
-709919 
93489 
76563 
4087963 
0837577 
6799234 
.6572452 
6012156 
9693575 
T26816 


ms 
602029 
09441 
20475 
-1196438 
2.414429 
243431 
-1178556 
65098673 
710 
40094873 
1.492409 
S16047 
-83948954 


552382 
.6900743 
5902646 
-0733854 
.555915 
4.910144 
1378257 
830475 


me 
ss 
-07544 


-To079oz 


1401756 
2.32345€ 


407823 
.9458025 
178946 
282647 
39319993 


6462727 


4453032 
8005695 
5510885 ~ 
.0466192 
-627045 
-3317146 
.1072107 


-olla7 
3.323393 
4414331 
-183096 


18.15 ” 按 职业 进行 的 聚 类 分 析 结 果 图 3 


从 图 18.15 中 可 以 看 到 所 有 的 观测 样本 被 分 为 两 类 ， 其 中 呼和浩特 、 哈尔滨 、 长 春 、 南 京 、 
深圳 、 银 川 被 分 到 第 2 类 ， 其 他 的 省 市 被 分 到 第 1 类 。 


-cles-: 


poop 
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输入 操作 命令 : 


sort clus 1 


并 按键 盘 上 的 回 车 键 进行 确认 ， 然 后 选择 “Data”| “Data Editor”| “Data Editor(Browse)” 
命令 ， 进 入 数据 查看 界面 ， 可 以 看 到 如 图 18.16 所 示 的 整理 后 的 数据 。 

可 以 看 到 第 2 类 所 代表 的 人 均 旅 游 消 费 支出 的 特点 是 无 论 职 业 类 型 如 何 花费 支出 总 体 上 相对 
较 高 ， 第 1 类 所 代表 的 人 均 旅 游 消 费 支 出 特点 是 无 论 职 业 类 型 如 何 花费 支出 总 体 上 相对 较 低 。 

图 18.17 展示 的 是 设 定 聚 类 数 为 3， 然 后 使 用 “K 个 平均 数 的 聚 类 分 析 ” 方 法 进行 分 析 的 
结果 。 在 输入 第 7 条 Stata 命令 并 且 分 别 按键 盘 上 的 回 车 键 进行 确认 后 ， 可 以 看 到 系统 产生 了 
一 个 新 的 变量 : 聚 类 变量 _clus_2 (cluster name: _clus 2) 。 


za a a me cl 
上 洒 -2076046 。 .4584498 -3703 


和 天 给 4353952 
40。 己 刘 木 刘 .0367005 -4.311033 
7 6 


四 


1 7794479 
ao 南京 。 1.992846 。 .5990038 。 2.165789 。 1.492409 。 .6462727 
图 和 陆 特 1.496787 1.098885 。 .7073593 。 2.414429 。 2.323456 


2 MN .422309 1.869786 .6012156 。 1.918144 3.323392 


18.16 ” 按 职 业 进 行 的 聚 类 分 析 结 果 图 4 


Cluster Kmeans Zzv2 Zv3 Zzvd Zv5 Zzv6,K(3) 
cluster name: _clus 2 


图 18.17 按 职 业 进 行 的 聚 类 分 析 结 果 图 5 


选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 18.18 所 示 的 _clus_2 数据 。 


"a 和 

Es 1 ’ 

信州 1 

CE 3 于 

北京 -23598782 .1693536 -5639904 .0425931 -0222234 
5 nM- 65 ~ oa569 1 1 
‘ 区 77508 1 
7 1 ul 
a 1 了 
3 1 1 
aa 3 
2 
下 1 加 
四 1 加 
14 = 1 
1 1 1 
16 1 了 
27 1 a 
1 3 
1 2 2 
aa 2 2 
a 
二 


18.18 ” 按 职 业 进行 的 聚 类 分 析 结果 图 6 
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从 图 18.18 中 可 以 看 到 所 有 的 观测 样本 被 分 为 3 类 ， 其 中 长 春 、 南 京 、 呼 和 浩特 、 深 圳 属 
于 第 2 类， 上海、 郑州 、 北 京 、 杭 州 、 武 汉 、 青 岛 、 长 沙 、 银 川 、 乌 鲁 木 齐 、 太 原 、 哈 尔 滨 、 
无 锡 属 于 第 3 类 ， 其 他 城市 属于 第 1 类 。 

为 观测 3 类 样本 的 特征 ， 我 们 可 以 对 数据 进行 排序 操作 ， 在 主 界面 的 “Command” 文 本 
框 中 输入 操作 命令 : 


sort clus 2 


并 按键 盘 上 的 回 车 键 进行 确认 ， 然 后 选择 “Data”| “Data Editor”| “Data Editor(Browse)” 
命令 ， 进 入 数据 查看 界面 ， 可 以 看 到 如 图 18.19 所 示 的 整理 后 的 数据 。 


ae- els 


图 18.19 按 职业 进行 的 聚 类 分 析 结 果 图 7 


从 图 18.19 中 可 以 看 到 第 2 类 所 代表 的 人 均 旅 游 消 费 支出 特点 是 无 论 职业 类 型 如 何 花 费 支 
出 总 体 上 相对 最 高 ,第 1 类 所 代表 的 人 均 旅 游 消费 支出 特点 是 无 论 职 业 类 型 如 何 花费 支出 总 体 
上 相对 最 低 ， 第 3 类 则 表示 中 等 水 平 。 

图 18.20 展示 的 是 设 定 聚 类 数 为 4， 然后 使 用 “K 个 平均 数 的 聚 类 分 析 ” 方 法 进行 分 析 的 
结果 。 在 输入 第 8 条 Stata 命令 并 且 分 别 按键 盘 上 的 回 车 键 进行 确认 后 ， 可 以 看 到 系统 产生 了 
一 个 新 的 变量 : 聚 类 变量 clus 3 (cluster name: clus 3) 。 


，cluster kmeans zv2 zyv3 zv4 zv5 zv6,k(4) 


[eluster name: clus 3 


18.20” 按 职业 进行 的 聚 类 分 析 结 果 图 8 


选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 18.21 所 示 的 _clus_3 数据 。 
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图 18.21 按 职业 进行 的 聚 类 分 析 结果 图 9 
从 图 18.21 中 可 以 看 到 所 有 的 观测 样本 被 分 为 4 类 , 其 中 大 连 、 沈阳 、 石家庄 属于 第 2 类 ， 
长 春 、 南 京 、 呼 和 浩特 、 深 圳 、 哈 尔 滨 属于 第 3 类 ， 苏 州 属于 第 1 类 ， 其 他 城市 属于 第 4 类 。 
从 图 18.20 中 很 难看 出 各 个 类 别 的 特征 ， 可 以 对 数据 进行 排序 操作 ， 在 主 界面 的 “Command” 
文本 框 中 输入 操作 命令 : 


sort clus 3 


并 按键 盘 上 的 回 车 键 进行 确认 ， 然 后 选择 “Data”| “Data Editor”| “Data Editor(Browse)” 
命令 ， 进 入 数据 查看 界面 ， 可 以 看 到 如 图 18.22 所 示 的 整理 后 的 数据 。 


vi va zw3 Em zvs xvé -clus-1 clus2 -clus-3 


1 荔 州 ”-1.328967 -.6175829 -1.709919 -.8948954 -.8005695 3 1 1 
2 石 寄 认 ~.423907 -~,816683 -1,.136709 ~-.620175 ~-.3203902 1 1 2 
3 大 连 ~.5178774 -1.293184 -1.508211 -1.178556 ~.9458025 1 1 2 
4 这 了 上 阳 -.3705867 -1.237194 -1.492533 -1.249431 -~.9407823 1 1 2 
5 晤 和 浩特 1.496787 1.098885 “7073593 2.414429 2.323456 2 2 3 
哈 尔 配 。 .7587556 1.8152893 .7734479 .6€77188 ~-.2832647 2 3 3 
7 长 奔 。 .7477161 1.811884 .52538S .6898673 -.1178346 2 2 3 
8 识 圳 ”2.422309 1.869796 ,6032156 1,919144 -3,323392 2 2 3 
， 网 商 1.992846 .5390038 2.165769 1.492409 .6462727 : > 3 
io 2076046 .4584498 -3701906 -4034873 .3831399 1 3 4 
1 MN .4856564 -e8023401 -6572652 .S55315 .301127 1 1 4 
12 北京 .0664084 -.4509933 -~-.487912 .3602029 ~-.413554 1 3 4 
图 FEM -1.538268 -1520246 1.341459 .5816047 -4453092 1 CH 
1 类 Ha409847 -lS32995 4087863 -6300743 .4627045 1 3 * 
1s 天 给 -51352 -613227 -6623245 .5910941 -307548 1 1 ， 
16 镇 州 2631448 -~.3371005 ~-.633489 ~-.5510885 -~.4840691 1 3 4 
17 医 沙 -~.6953171 .1939038 .6799234 -~.0739854 ~.1072107 1 3 4 
18 包租 水 齐 “0367005 -1.311033 “726815 -.2890475 ~-.183096 1 3 4 
1 Wa/ .2302998 .8411982 3639575 .1378257 4414991 2 3 ， 
20 起 公 ~.5386999 ~.7425251 .0837577 ~.5902646 ~.3317146 1 3 4 
a 太原“ -4267627 .4124463 .5096686 -1.196438 -1401756 : 3 ， 
22 朝 岛 .0101338 -~.5735981 176563 "SS2182 ~-.0466192 1 3 4 


图 18.22” 按 职业 进行 的 聚 类 分 析 结 果 图 10 


从 图 18.22 中 可 以 看 到 第 3 类 所 代表 的 人 均 旅游 消费 支出 特点 是 无 论 职 业 类 型 如 何 花费 支 
出 总 体 上 相对 最 高 ,第 2 类 所 代表 的 人 均 旅游 消费 支出 特点 是 无 论 职 业 类 型 如 何 花费 支出 总 体 
上 相对 较 低 , 第 4 类 所 代表 的 人 均 旅 游 消 费 支出 特点 是 无 论 职 业 类 型 如 何 花费 支出 总 体 上 相对 
较 高 ， 第 1 类 所 代表 的 人 均 旅游 消费 支出 特点 是 无 论 职业 类 型 如 何 花 费 支 出 总 体 上 相对 最 低 。 
在 前 面 的 章节 中 也 提 到 过 ， 划 分 聚 类 分 析 的 特点 是 需要 事先 制定 拟 分 类 的 数量 。 究 竟 分 
成 多 少 类 是 合理 的 , 这 是 没有 定论 的 。 用 户 需要 根据 自己 的 研究 和 需要 及 数据 的 实际 特点 加 入 


396 


% 
\ NW NAN 
NN \ 第 18 章 ”Stata 在 旅游 业 中 的 应 用 江 
自己 的 判断 。 在 上 面 的 分 析 中 ， 我 们 尝试 着 把 样本 分 别 分 为 >、3、4 类 进行 了 研究 ， 可 以 看 出 
把 数据 分 成 两 类 是 过 于 粗糙 的 , 而 且 两 个 类 别 所 包含 的 样本 数量 的 差别 也 是 比较 大 的 , 而 把 数 
据 分 成 3 类 是 比较 合适 的 。 读 者 可 以 再 把 数据 分 成 5 类 、6 类 或 者 其 他 数量 的 类 别 进行 研究 ， 
观察 分 类 情况 ， 找 出 自己 认为 的 最 优 分 类 。 
通过 聚 类 分 析 得 到 的 研究 结论 是 ， 按 职业 进行 聚 类 分 析 时 ， 上 海 、 郑 州 、 北 京 、 杭 州 、 
武汉 、 青 岛 、 长 沙 、 银 川 、 乌 鲁 木 齐 、 太 原 、 哈 尔 滨 、 无 锡 等 城市 的 城镇 居民 无 论 职 业 类 型 如 
何 ， 其 2007 年 人 均 旅游 消费 支出 都 处 于 全 国 中 档 水 平 上 ; 长春、 南京 、 呼 和 浩特 、 深 圳 等 城 
市 的 城镇 居民 无 论 职 业 类 型 如 何 ， 其 2007 年 人 均 旅 游 消 费 支出 都 处 于 全 国 高 档 水 平 上 ， 除 以 
上 城市 之 外 的 其 他 城市 的 城镇 居民 无 论 职 业 类 型 如 何 ， 其 2007 年 人 均 旅 游 消费 支出 都 处 于 全 
国 低档 水 平 上 。 


18.3.3 ”各 城市 国内 旅游 出 游人 均 花 费 按 文化 水 平 进行 的 聚 类 分 析 


B= 下 载 资源 \video\chap18\*… 


下 载 资源 :\sample\chap18\ 案 例 18.3.dta 


表 18.6 是 2007 年 我 国 22 个 城市 城镇 居民 国内 旅游 出 游人 均 花 费 按 文化 水 平 进行 分 类 的 
数据 。 
表 18.6 我 国 2007 年 城镇 居民 国内 旅游 出 游人 均 花 费 情况 统计 〈 按 文化 水 平分 组 ) 《单位 : 元 /人 ) 


[城市 。 ”| 大专 及 以 上 和 中 专 及 高 中 [初中 [小 学 | 
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市 ”“ 大 专 及 以 上 ”“ 中 专 及 高 中 ”“ 初 中 ”“ 小 学 ”“ 小 学 以 下 ”。 我 们 将 这 6 个 变量 分 别 
定义 为 VI~V6， 然 后 录入 相关 数据 。 录 入 完成 后 数据 如 图 18.23 所 示 。 


加 器 加 加 
1 aa 

: Er so 33 
间 a6.6 

A a70 

5 和 风物 2378.6 3263 1600/3 248.4 i66 
< Mos 

7 加 z 7 at 
s 0693 3856 1200.8 1864.s 。 
9 le 5 050 
in E008 m3 
un MR 6 862 

2 天 1 102 0 ae 
四 pr so 947 S20 20.6 
1 aa 
s 本 2 0 a 3 sz 
ae 后 放 2 9 
2 RR 3 02 让 oa 2 
s 92 le 6 7 7 
四 天 aoc6z 746.7 7 oo. 9 


18.23 ”案例 18.3 数据 
聚 类 分 析 的 分 析 步 又 如 下 : 


加 进入 Stata 14.0， 打 开 相 关 数据 文件 ， 弹 出 主 界面 。 
在 主 界面 的 “Command” 文 本 框 中 分 别 输入 如 下 命令 并 按键 盘 上 的 回 车 键 进 行 确认 。 


eegen zv2=std(V2): 本 命令 旨 在 对 V2 变量 数据 进行 标准 化 处 理 ， 标 准 化 处 理 方式 是 使 
变量 的 平均 数 为 0 而 且 标准 差 为 1。 

e egen zv3=std(V3): 本 命令 旨 在 对 V3 变量 数据 进行 标准 化 处 理 ， 标 准 化 处 理 方式 是 使 
变量 的 平均 数 为 0 而 且 标准 差 为 1 。 

e egen zv4=std(V4): 本 命令 旨 在 对 V4 变量 数据 进行 标准 化 处 理 ， 标 准 化 处 理 方式 是 使 
变量 的 平均 数 为 0 而 且 标准 差 为 1。 

。 egen zv5=std(V5): 本 命令 旨 在 对 V5 变量 数据 进行 标准 化 处 理 ， 标 准 化 处 理 方式 是 使 
变量 的 平均 数 为 0 而 且 标准 差 为 1。 

e egen zv6=std(V6): 本 命令 旨 在 对 V6 变量 数据 进行 标准 化 处 理 ， 标 准 化 处 理 方式 是 使 
变量 的 平均 数 为 0 而 且 标准 差 为 1。 

ecluster kmeans zv2 zv3 zv4 zv5 zv6,k(2): 本 命令 旨 在 对 V2~V6 的 标准 化 变量 进行 “K 
个 平均 数 的 聚 类 分 析 ”， 设 定 的 聚 类 数 是 2。 

。 cluster kmeans zv2 zv3 zv4 zv5 zv6,k(3): 本 命令 旨 在 对 V2~V6 的 标准 化 变量 进行 “K 
个 平均 数 的 聚 类 分 析 ”， 设 定 的 聚 类 数 是 3。 

ecluster kmeans zv2 zv3 zv4 Zzv5 zv6,k(4): 本 命令 旨 在 对 V2~V6 的 标准 化 变量 进行 “K 
个 平均 数 的 聚 类 分 析 ”， 设 定 的 聚 类 数 是 4。 

设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 

在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 18.24~ 图 18.33 所 示 的 分 析 结 果 。 
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1. 数据 标准 化 处 理 

在 分 析 过 程 中 前 5 条 Stata 命令 旨 在 对 数据 进行 标准 化 处 理 ， 选 择 的 标准 化 处 理 方式 是 使 
变量 的 平均 数 为 0 而且 标准 差 为 1, 之 所 以 这 样 做 是 因为 我 们 进行 聚 类 分 析 的 变量 都 是 以 不 可 
比 的 单位 进行 的 测度 , 它们 具有 极为 不 同 的 方差 , 对 数据 进行 标准 化 处 理 可 以 避免 使 结果 受到 
具有 最 大 方差 变量 的 影响 。 在 输入 前 5 条 Stata 命令 并 且 分 别 按键 盘 上 的 回 车 键 进行 确认 后 ， 
我 们 选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 18.24 所 示 的 变换 后 的 数据 。 


8,3 


图 18.24 ” 按 文 化 水 平 进行 的 聚 类 分 析 结 果 图 1 


2. K 个 平均 数 的 聚 类 分 析 


18.25 展示 的 是 设 定 聚 类 数 为 2， 然 后 使 用 “K 个 平均 数 的 聚 类 分 析 ” 方 法 进行 分 析 的 
结果 。 在 输入 第 6 条 Stata 命令 并 且 分 别 按 键盘 上 的 回 车 键 进行 确认 后 ， 可 以 看 到 系统 产生 了 


一 个 新 的 聚 类 变量 。 


图 18.25 “ 按 文化 水 平 进行 的 聚 类 分 析 结果 图 2 
选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 


到 如 图 18.26 所 示 的 聚 类 数据 。 


18.26 ” 按 文 化 水 平 进行 的 聚 类 分 析 结 果 图 3 
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从 图 18.26 中 可 以 看 到 所 有 的 观测 样本 被 分 为 两 类 , 其 中 太原 、 呼 和 浩特 、 哈 尔 滨 、 
南京 、 深 圳 、 银 川 被 分 到 第 2 类， 其 他 的 省 市 被 分 到 第 1 类 。 
为 观测 两 类 样本 的 特征 ， 可 以 对 数据 进行 排序 操作 ， 在 主 界面 的 “Command” 文 本 框 中 
输入 操作 命令 : 


sort clus 1 


并 按键 盘 上 的 回 车 键 进行 确认 ， 然 后 选择 “Data”| “Data Editor”| “Data Editor(Browse)” 


命令 ， 进 入 数据 查看 界面 ， 可 以 看 到 如 图 18.27 所 示 的 整理 后 的 数据 。 


zz zw va zw ze -eu 


图 18.27 按 文化 水 平 进行 的 聚 类 分 析 结果 图 4 


可 以 看 到 第 2 类 所 代表 的 人 均 旅 游 消 费 支出 特点 是 无 论文 化 水 平 如 何 花费 支出 总 体 上 相 
对 较 高 ， 第 1 类 所 代表 的 人 均 旅游 消费 支出 特点 是 无 论文 化 水 平 如 何 花 费 支出 总 体 上 相对 较 
低 。 
图 18.28 展示 的 是 设 定 聚 类 数 为 3， 然后 使 用 “K 个 平均 数 的 聚 类 分 析 ” 方 法 进行 分 析 的 
结果 。 在 输入 第 7 条 Stata 命令 并 且 分 别 按键 盘 上 的 回 车 键 进行 确认 后 ， 可 以 看 到 系统 产生 了 
-个 新 的 变量 : 聚 类 变量 _clus_2 (cluster name: clus 2) 。 


. Cluster kmeans ZV2 ZVv3 ZV4 ZzZv5 zv6,k(3) 
cluster name: Cclus 2 


图 18.28 按 文化 水 平 进行 的 聚 类 分 析 结果 图 5 
选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 18.29 所 示 的 _clus_2 数据 。 
从 图 18.29 中 可 以 看 到 所 有 的 观测 样本 被 分 为 3 类 ， 其 中 南京 、 呼 和 浩特 、 深 圳 属于 第 2 
类 ， 长 沙 、 银 川 、 太 原 、 哈 尔 滨 、 长 春 属 于 第 3 类 ， 其 他 城市 属于 第 1 类 。 
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tata 在 旅 


音 
L 
\\AA\A\\\\\\\\\\\A\\\\\\ 
ms ve 


un zz za zw 
1 上 者 ~.5326007 ~.0724776 ~,8812586 ~.416187 .J084878 
日 D0365715 .3126196 -.3634083 .6744207 -1.067826 
3 斯 州 “-.7863744 ~.4485261 .0319059 -~.4306886 -.S517095 
4 北京 “-.2826713 ~.4716702 ~.1698035 -I831225 ~.4655777 
日 沈阳 “-1.344788 10916 -7246693 -23930442 
6 MN 4090491 ~.6413357 .0636361 ~.4335499 ~.3234431 
7 杏 锅 .2441242 。 .0014792 -1.091568 .0569543 。 1.353031 
5183696 ~.7948178 ~.0430179 ~.1713992 -3173771 
3 天 给 -8395354 ~.5461491 -~.0166757 ~.5204565 -~.2903906 
10 与 包 水 齐 .2165015 .633931 743979 -3926 -0477374 
E99 石 寄主 -7373571 -4955104 -7180651 .33243232 -1698541 
1 广州 “-.6140734 ~.6843176 ~.1061965 -~.5361927 ~.3762976 
2 大 连 “-1.432748 -1.424755 -1.336573 -1.110742 .6767467 
4 闽 州 “-.8307394 -1.131875 ~,3049413 -4995345 -.3182766 
35 无 明 ~.0279754 ~.l909826 ~.9138117 ~.7421936 .0015128 
16 | 52441 。 458445 251014 1.556363 ~,8609294 
7 大原 。 .1206509 4.265009 。 .3052139 .662261 -.6457124 
18 桥 帮 41.770023 .4274701 .7783464 1.303453 -1.264152 
19 暴 生 夸 1.320269 4.248651 。 ,2435345 -9017014 -~.2053873 
20 商 京 1901 。 1.47261 2.34706 2.582076 -1,460131 


1.083554 。 1.368374 1.634534 ~.3864622 2.523019 
.218884 2.305276 2,208282 1.20659 1.707282 


图 18.29 按 文化 水 平 进行 的 聚 类 分 析 结 果 图 6 
为 观测 3 类 样本 的 特征 ， 可 以 对 数据 进行 排序 操作 ， 在 主 界面 的 “Command” 文 本 框 中 
输入 操作 命令 : 
st ems2 


并 按键 盘 上 的 回 车 键 进行 确认 ， 然 后 选择 “Data”|“Data Editor”| “Data Editor(Browse)” 
命令 ， 进 入 数据 查看 界面 ， 可 以 看 到 如 图 18.30 所 示 的 整理 后 的 数据 。 


本 E vd Ee Er 


总 
EE 
3 


1 钙 州 090491 -6411357 。 .0636161 ~.4335499 -3234491 1 1 
日 MN T863714 ~.4485261 .0913059 ~.4106886 ~.5517035 1 1 
3 T144788 -1.144186 -1.108916 ~.724663] ~.1870442 1 1 
4 无 届 .0273754 .1909826 9138417 ~.7421936 .0015128 i 
s W07394 -1.111875 ~.3049413 .4995345 ~.3142766 1 1 
: 大 于 -1.432748 -1.424755 -1.336573 -1.410742 ~.6767467 1 1 
a 区 -5926007 ~.0724776 ~.8812546 ~.416193] .3084878 1 1 
. RR -5188696 ~.794817 ~.0430179 ~.1713992 ~.3173771 1 Ty 
了 天 只 -8395154 -5461431 -.0166757 .5204565 -.2903906 1 1 
ao 五 衣 庄 。-.7272571 ~.4955104 .7180651 ~.3924212 -1698531 1 1 
1 广州 “-.6140734 ~,684J176 -~.1061965 -.$361927 -.3762976 1 1 
2 北京 “-.2826713 -4716702 -1698035 ~,I831225 ~.4655777 和 
2 甸 风 .2441242 .0014792 -1.091568 .0563543 。 1.958034 1 1 

4 2 


14 与 艺林 并 。 .2165015 -6231371 ~.741979 ~.I926 ~.0477374 


18 覆 夺 1.770029 .4274701 。 .7789464 。 1.303453 ~1.264152 


2 3 
19 长 诊 .0965715 。 .3126196 ~.3634083 .6744207 -1.067826 1 3 
20 本 川 。 .452441 。 .456445 。 .1251014 1.556363 ~.#609294 2 3 
21 太 夺 .lz06509 1.26s009 。 .3052139 ,662261 ~.64S7124 2 3 
2 蛇 年 磺 1.320269 1.248651 .2435345 ~.9017014 ~.2053833 2 3 


图 18.30” 按 文化 水 平 进行 的 聚 类 分 析 结 果 图 7 


从 图 18.30 中 可 以 看 到 第 2 类 所 代表 的 人 均 旅游 消费 支出 特点 是 无 论文 化 水 平 如 何 花费 支 
出 总 体 上 相对 最 高 ,第 1 类 所 代表 的 人 均 旅 游 消费 支出 特点 是 无 论文 化 水 平 如 何 花费 支出 总 体 
上 相对 最 低 ， 第 3 类 则 表示 中 等 水 平 。 

18.31 展示 的 是 设 定 聚 类 数 为 4， 然后 使 用 “K 个 平均 数 的 聚 类 分 析 ” 方 法 进行 分 析 的 
结果 。 在 输入 第 8 条 Stata 命令 并 且 分 别 按键 盘 上 的 回 车 键 进行 确认 后 ， 可 以 看 到 系统 产生 了 
一 个 新 的 变量 : 聚 类 变量 clus 3 (cluster name: clus 3) 。 
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下 


、 
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RE \N\ 


cluster kmeans zw2 Zzv3 zv4 zw5 zw6 | 


| name: _clus 3 


图 18.31 按 文化 水 平 进行 的 聚 类 分 析 结果 图 8 
选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 


到 如 图 18.32 所 示 的 _clus_3 数据 。 


a va 


™ 


1 铺 作 -4090494 ,6411357 
日 MRM -7863734 .4485263 
3 CT 
‘ 无 锯 -0279754 

5 079 -1 

‘ 大 建 4,472748 ~ 

7 上 商 “-.5926007 ~ 
18696 -~ 

> 天 只 -895754 .5461494 
0 石灰 诺 -7272573 .4955104 
广州 “-.6140734 -6843376 
2 北京 2626743 ~.4746702 
2 百名 -2441242 .0014732 
4 和 林 开 .2165015 。 .633331 
35 两 京 。 3.431304 1.47264 
16 呈 和 阮 物 4.007554 。 1.368974 
7 24 2.305276 
En 长 奏 。 1.770029 .4274704 
19 WD 065745 。 .33126196 
20 2 
a1 大 车 .1206509 1.265009 
2 鸭 生 本。 1.320269 。 1.248651 


18.32 


va za 
CE 
北京 .2826733 
昼 电 .2441242 
上 霹 -5326007 
MM .7863714 
N07194 
MM -6140734 
己 条 水 齐 。 .2165015 
天 叶 -8335354 
RR -sls9696 
于 九 -.0279754 
石刻 座 .7272574 


ET 时 是 玫 时 A 
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Em 
9636361 
0913059 


“1,408.6 
.338117 
3043413 
16573 
.0812586 
.0430179 
0866757 
-7180651 
1061965 
-1630035 
10091568 


.743979 

2.34706 
4.04574 
2.208202 
7789464 


.694083 


,1251014 
2062139 
2435345 


ms 


4935499 
-106886 
-726693 
.7421936 
995345 
.240742 


416983 


-31713992 
S204565 
3924212 
S361927 
.38934335 


056954 
026 
2.582076 


-99646322 


30659 
1.903453 
0744207 
4,556369 

.662261 


-9017014 


ve 
.32144334 
5537095 
380442 

.0015129 
-182766 
6767467 

.10648078 
.33273773 
290906 
98533 
-762976 
-46555777 

.95407 
-0477374 

Er 

2.529049 

.707202 
区 
.067826 
609294 
.6457424 
2053833 


Ws elus2 clus 


2 


按 文 化 水 平 进行 的 聚 类 分 析 结 果 图 9 

从 图 18.32 中 可 以 看 到 所 有 的 观测 样本 被 分 为 4 类 。 其 中 大 连 、 沈 阳 属于 第 2 类 ， 南 京 、 
呼和浩特 、 深 圳 属于 第 3 类， 长沙、 长春、 哈尔滨、 银川 、 太 原 属 于 第 4 类， 其 他 城市 属于 第 
1 类 。 从 图 18.32 中 很 难看 出 各 个 类 别 的 特征 ， 可 以 对 数据 进行 排序 操作 ， 在 主 界面 的 
“Command” 文 本 框 中 输入 操作 命令 : 


并 按键 盘 上 的 回 车 键 进行 确认 ， 然 后 选择 “Data”| “Data Editor”|“Data Editor(Browse)” 
命令 ， 进 入 数据 查看 界面 ， 可 以 看 到 如 图 18.33 所 示 的 整理 后 的 数据 。 


Evy 
-64193857 
476702 

0044792 
.0724776 
-4453 
07g 
-84376 

~ 
S461491 
-794837e 
~.1909026 
4355104 


.47263 


.68774 
2.305276 
48653 
4274701 

.458445 
M2196 
1.265009 


Em 


-70973 


Er 


00 -935499 
-3095 -831225 
“091568 ,056954 
-est2586 -416383 
.0919053 ~.4106896 
.049413 -4995345 
-061365 ~.5361927 


-6166757 ~ 
-94103879 -1713992 
-3208077421906 
.7a80651 -3924212 


.34706 3.582076 
44514 -9864622 
2.208282 1.20659 
3435345 .9017014 
7789464 。 1.903453 
-251014 1.556363 

30400 .0744207 
3052139 662261 


ve 
.234491 
.4655777 

4.958071 

.206483 
.$517095 
2766 
-3762976 
-04877374 
~.2903906 
473774 

001s128 
-1698511 


1.460131 


2.529019 

1.707202 
053833 
-2641s2 
-609294 
-1.007m6 
-cas7124 


2 


按 文化 水 平 进行 的 聚 类 分 析 结 果 图 10 
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从 图 18.33 中 可 以 看 出 , 第 3 类 所 代表 的 人 均 旅游 消费 支出 特点 是 : 无 论文 化 水 平 如 何 花 
费 支出 总 体 上 相对 最 高 , 第 2 类 所 代表 的 人 均 旅游 消费 支出 特点 是 : 无 论文 化 水 平 如 何 花费 支 
出 总 体 上 相对 最 低 , 第 4 类 所 代表 的 人 均 旅 游 消 费 支出 特点 是 : 无 论文 化 水 平 如 何 花费 支出 总 
体 上 相对 较 高 ,第 1 类 所 代表 的 人 均 旅 游 消费 支出 特点 是 无 论文 化 水 平 如 何 花费 支出 总 体 上 相 
对 较 低 。 

在 前 面 的 章节 中 也 提 到 过 ， 划 分 聚 类 分 析 的 特点 是 需要 事先 制定 拟 分 类 的 数量 。 究 竟 分 
成 多 少 类 是 合理 的 , 这 是 没有 定论 的 。 用 户 需要 根据 自己 的 研究 和 需要 及 数据 的 实际 特点 加 入 
自己 的 判断 。 在 上 面 的 分 析 中 ,我 们 尝试 着 把 样本 分 别 分 为 2、3、4 类 进行 了 研究 ， 可 以 看 出 
把 数据 分 成 两 类 是 过 于 粗糙 的 ,而 且 两 个 类 别 所 包含 的 样本 数量 的 差别 也 是 比较 大 的 ,而 把 数 
据 分 成 3 类 是 比较 合适 的 。 读 者 可 以 再 把 数据 分 成 5 类 、6 类 或 者 其 他 数量 的 类 别 进 行 研究 ， 
观察 分 类 情况 ， 找 出 自己 认为 最 优 的 分 类 。 

通过 聚 类 分 析 得 到 的 研究 结论 是 : 按 文 化 水 平 进行 聚 类 时 ， 长 沙 、 银 川 、 太 原 、 哈 尔 滨 、 
长 春 等 城市 的 城镇 居民 无 论文 化 水 平 如 何 ， 其 2007 年 人 均 旅 游 消 费 支出 都 处 于 全 国 中 档 水 平 
上 ; 南京、 呼和浩特 、 深 圳 等 城市 的 城镇 居民 无 论文 化 水 平 如 何 ， 其 2007 年 人 均 旅游 消费 支 
出 都 处 于 全 国 高 档 水 平 上 ; 除 以 上 城市 之 外 的 其 他 城市 的 城镇 居民 无 论文 化 水 平 如 何 , 其 2007 


年 人 均 旅游 消费 支出 都 处 于 全 国 低档 水 平 上 。 
18.3.4 ”各 城市 国内 旅游 出 游人 均 花费 按 旅游 目的 进行 的 聚 类 分 析 


4 下 载 资源 :videovchaplgv… 


下 载 资源 :\sample\chap18\ 案 例 18.4.dta 


表 18.7 是 2007 年 我 国 22 个 城市 城镇 居民 国内 旅游 出 游人 均 花 费 按 旅游 目的 进行 分 类 的 

数据 。 

表 18.7 我 国 2007 年 城镇 居民 国内 旅游 出 游人 均 花 费 情况 统计 〈 按 旅游 目的 分 组 ) (单位 :元 /人 ) 

城市 观光 游览 度假 休闲 

北京 1272.1 653.6 

天 津 971.6 1026.1 

石家庄 989.9 1124.8 

太原 1331.2 1 824.3 

呼和浩特 2436.0 1 848.6 

沈阳 385.9 474.8 

大 连 350.5 151.4 

长 春 2332.9 1330.4 

哈尔滨 1623.5 1 986.4 

上 海 936.5 650.7 

南京 2381.0 22272 

无 锡 1 066.5 1 168.2 

苏州 595.3 114.4 


403 


Stata 统 计 分 析 与 行业 应 用 案例 详解 (第 2 版 \ 


\\N\ 


观光 游览 


1359.3 


在 用 Stata 进行 分 析 之 前 , 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 6 个 变量 ， 分 别 为 “ 城 


市 ”“ 观 光 游 览 ”“ 探 亲 访 友 ”“ 商 务 ”“ 公 务 会 议 ”“ 度 假 休闲 ”。 将 这 6 个 变量 分 别 定义 
为 V1I~V6， 然 后 录入 相关 数据 。 录 入 完成 后 数据 如 图 18.34 所 示 。 
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un 加 w vs vw ve 
1 北京 1272.1 805.4 230z 1623.3 651.6 
2 天 内 971,6 646.6 1244.7 231.8 1026.1 
石 亦庄 383.3 352.3 3058 1364 1124.8 
4 太原 1331.2 1462.2 o o 1824.3 
S 叮 和 后 特 2436 1298.2 3135 14 1748.6 
‘ 这 阳 385.9 358.6 S30.1 1576.5 474.8 
了 大 过 350.5 351,5 1958.2 246.9 351.4 
由 长 于 2332.9 2624.6 4534 3742.5 1330.4 
3 喀 尔 请 1623.5 1798.3 3032.4 3670.7 1986.4 
20 上 海 936.5 2104.3 877.3 2738.5 650.7 
了 1 南京 2361 1671.7 8 o 27.2 
22 无 名 1066.5 2113.3 970.2 9 1168.2 
3 苏州 S95.3 903.3 o 9 3344.4 
24 全 州 1359.3 467.6 869 41619.6 452.2 
35 豆包 1485.5 04.8 2254.7 92.5 3oz 
16 a] 366.3 468.7 o 660 330 
27 起 芭 1098.9 500.5 2568.7 1365.1 1175 
18 长 沙 2664.1 1006.2 1753.1 o 606.5 
19 广州 7 时 1195.6 64.9 1480.5 750 
20 深圳 I911.8 1572.7 2963.4 948.6 1989.7 
2 时 咱 1598.3 1033.2 5011.6 1815.2 1483.5 
22 乌 鳞 水 齐 1315 1198.6 4671.3 2129.6 407.3 


18.34 ”案例 18.4 数据 


聚 类 分 析 的 分 析 步 骤 如 下 : 


四 进入 Stata 14.0， 打 开 相 关 数据 文件 ， 弹 出 主 界面 。 
加 在 主 界面 的 “Command” 文 本 框 中 分 别 输入 如 下 命令 并 按键 盘 上 的 回 车 键 进 行 确认 。 


egen zv2=std(V2): 本 命令 旨 在 对 V2 变量 数据 进行 标准 化 处 理 ， 标 准 化 处 理 方式 是 使 
变量 的 平均 数 为 0 而 且 标准 差 为 1。 
egen zv3=std(V3): 本 命令 旨 在 对 V3 变量 数据 进行 标准 化 处 理 ， 标 准 化 处 理 方式 是 使 
变量 的 平均 数 为 0 而 且 标准 差 为 1。 
egen zv4=std(V4): 本 命令 旨 在 对 V4 变量 数据 进行 标准 化 处 理 ， 标 准 化 处 理 方式 是 使 
变量 的 平均 数 为 0 而 且 标准 差 为 1。 
egen zvS=std(V5): 本 命令 旨 在 对 V5 变量 数据 进行 标准 化 处 理 ， 标 准 化 处 理 方式 是 使 
变量 的 平均 数 为 0 而 且 标准 差 为 1。 
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。 egen zv6=std(V6): 本 命令 旨 在 对 V6 变量 数据 进行 标准 化 处 理 ， 标 准 化 处 理 方式 是 使 
变量 的 平均 数 为 0 而 且 标准 差 为 1。 

ecluster kmeans zv2 zv3 zv4 Zzv5 zv6,k(2): 本 命令 旨 在 对 V2~V6 的 标准 化 变量 进行 “K 
个 平均 数 的 聚 类 分 析 ”， 设 定 的 聚 类 数 是 2。 

。 cluster kmeans zv2 zv3 zv4 zv5 zv6,k(3): 本 命令 旨 在 对 V2~V6 的 标准 化 变量 进行 “K 
个 平均 数 的 聚 类 分 析 ”， 设 定 的 聚 类 数 是 3。 

。 cluster kmeans zv2 zv3 zv4 Zzv5 zv6,k(4): 本 命令 旨 在 对 V2~V6 的 标准 化 变量 进行 “K 
个 平均 数 的 聚 类 分 析 ”， 设 定 的 聚 类 数 是 4。 

加 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 

在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 18.35~ 图 18.44 所 示 的 分 析 结 果 。 


1. 数据 标准 化 处 理 

在 分 析 过 程 中 前 5 条 Stata 命令 旨 在 对 数据 进行 标准 化 处 理 ， 选 择 的 标准 化 处 理 方式 是 使 
变量 的 平均 数 为 0 而 且 标准 差 为 1。 之 所 以 这 样 做 是 因为 我 们 进行 聚 类 分 析 的 变量 都 是 以 不 可 
比 的 单位 进行 的 测度 , 它们 具有 极为 不 同 的 方差 , 我 们 对 数据 进行 标准 化 处 理 可 以 避免 使 结果 
受到 具有 最 大 方差 变量 的 影响 。 在 输入 前 5 条 Stata 命令 并 且 分 别 按键 盘 上 的 回 车 键 进行 确认 
后 ， 选 择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 18.35 所 示 的 变换 后 的 数据 。 


图 18.35 ” 按 旅 游 目的 进行 的 聚 类 分 析 结果 图 1 


2. K 个 平均 数 的 聚 类 分 析 

图 18.36 展示 的 是 设 定 聚 类 数 为 2， 然后 使 用 “K 个 平均 数 的 聚 类 分 析 ” 方 法 进行 分 析 的 
结果 。 在 输入 第 6 条 Stata 命令 并 且 分 别 按键 盘 上 的 回 车 键 进行 确认 后 ， 可 以 看 到 系统 产生 了 
一 个 新 的 聚 类 变量 。 


，cluster kmeans zv2 zy3 zv4 zv5 zv6,k(2) 


cluster name: clus 1 


18.36 按 旅游 目的 进行 的 聚 类 分 析 结果 图 2 
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选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 18.37 所 示 的 聚 类 数据 。 


ua 
北京 T3073] -610s38 17s0351 .2922291 -$874082 


1 1 
2 天 给 -5455368 -~.7200493 -~.5062146 -~.0771064 ~.0002078 1 
3 五 二 庄 。-.5228518 -1.200028 .6621482 .0457266 .1553807 1 
4 太原。 -.099773 .6101255 -1,308212 -1,221628 1,258056 1 
s 呈 和 和 陆 特 4.269753 .3426553 .7A17616 ~.4653036 。 1.138724 2 
下 让 则 “-1.271578 -1.189753 ~.9666525 .2431702 ~.8692644 1 
大 连 。 -1.31546 -1.201333 -~.0464855 ~.0610763 -1.373065 1 
a 长 在 1.141948 2.505903 1.651938 2.2557 。 .4794838 2 
3 唤 尔 核 。 ,2625669 1,158276 。 6456533 2,188989 1,513587 日 
10 上 者 ~.5890472 。 1.657337 ~.7429413 。 1.322838 ~.5919797 1 
1 南京 1.201574 .9518024 .4849576 -1.221628 1.893176 2 
22 天 名 -4278975 。 .0410992 -.68308J1 -1,221628 .2237953 1 
13 WM .012003 -.3013932 -1.308212 -3.221628 -1.437391 1 
34 鲍 州 “-.0643388 -1.011983 -~.7482892 .2832163 ~.9048905 1 
35 再 画 。 .0915003 ~.4620385 .1445583 ~,3923657 ~.1958362 1 
16 MN 5521067 -1.010189 -1.308212 -~.6083921 -1.097524 1 
27 RO 。 -.387734 -.953]261 。 .3468773 .0467487 .2345147 1 
38 括 淮 .5608178 。 -.133572 ~.1747715 -1.221629 -~.6646555 1 
19 广州 “-.7768485 .A751234 -1.266395 .1539722 ~.4354455 1 
20 于 3.099173 .7903417 .6140812 ~.3402406 1.518789 2 
a1 Wm) .2313288 -0835374 1.920911 .4649573 .720827 2 
22 三 物 水 和 .3198537 。 .5061393 1.701645 .7570809 ~.9756699 2 


图 18.37 按 旅游 目的 进行 的 聚 类 分 析 结 果 图 3 


从 图 18.37 中 可 以 看 到 所 有 的 观测 样本 被 分 为 两 类 ， 其 中 太原 、 青 岛 、 大 连 、 武 汉 、 杭 州 、 
石家庄 、 无 锡 、 郑 州 、 广 州 、 上 海 、 天 津 、 北 京 、 苏 州 、 沈 阳 、 长 沙 被 分 到 第 1 类 ， 南 京 、 深 
圳 、 哈 尔 滨 、 银 川 、 长 春 、 呼 和 浩特 、 乌 鲁 木 齐 被 分 到 第 2 类。 

为 观测 两 类 样本 的 特征 ， 可 以 对 数据 进行 排序 操作 ， 在 主 界面 的 “Command” 文 本 框 中 
输入 操作 命令 : 


sort clus 1 


并 按键 盘 上 的 回 车 键 进行 确认 ， 然 后 选择 “Data”| “Data Editor”| “Data Editor(Browse)” 
命令 ， 进 入 数据 查看 界面 ， 可 以 看 到 如 图 18.38 所 示 的 整理 后 的 数据 。 

可 以 看 到 第 2 类 所 代表 的 人 均 旅 游 消费 支出 特点 是 无 论 旅游 目的 如 何 花费 支出 总 体 上 相对 较 
高 ， 第 1 类 所 代表 的 人 均 旅 游 消 费 支 出 特点 是 无 论 旅游 目的 如 何 花 费 支 出 总 体 上 相对 较 低 。 


E29 zk we lus 


un mm 
er .eolagy -aotl2 -Laaleas 1.2ssose 


1445583 .923657 -1958362 


1 
2 

了 = -0464a55 ~.0630763 -1.379065 
4 9583261 。 .3468778 .0467487 。 .2345147 
s HMM -0649388 -1.011983 -.7482832 .2832163 -~,3048905 
‘ 

7 

和 


五 订 订 .5228518 -1.200028 .6621482 。 .0457266 .14553807 
无 旭 ~.4278975 .0410992 -.6830831 -1,221628 .2237953 
MM -SS21067 -1.010183 -1.308212 ~.é083921 -1.097524 
广州 “-.7768486 .1753234 ~1.266395 .1539722 ~.4354455 
ao 上 出 “-.5890472 。 1.657337 .7429413 。 1.322838 -5919797 


1 天 给 .545536$ -7200493 -.5062146 -.0771064 -.0002078 
1 失策 .1730331 -4610598 .1750351 .2922291 ~.5874082 
了 WM 1.012003 ~.3013912 -1.308212 -1.221628 -1.417391 
4 让 加 -1.271578 -1.189753 -~.3666525 .2431702 -$692644 
15 D608178 -133572 -17477145 -1,221628 -.6616555 
16 册 宙 1.201574 9519024 .4449576 -1.221624 1.893178 
27 所 和 .099173 .7903417 。 .6140812 -.3402406 。 1.518789 
18 辐 放 区 .2625669 4158276 .6456533 2.188988 1.513567 
3 WN .2243288 -~.0895374 1.320914 .4649573 .720827 
20 桥 春 14.441948 2.505902 1.651838 2.2557 .4794838 
a 阿 和 储 特 1.269753 .3426553 .7117616 -.4653036 。 1.138724 
22 与 委 木 齐 “-.1198537 .5063993 1.701645 .7570809 ~.9756699 


18.38 ” 按 旅 游 目的 进行 的 聚 类 分 析 结 果 图 4 
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AAA 


图 18.39 展示 的 是 设 定 聚 类 数 为 3， 然后 使 用 “K 个 平均 数 的 聚 类 分 析 ” 方 法 进行 分 析 的 
结果 。 在 输入 第 7 条 Stata 命令 并 且 分 别 按键 盘 上 的 回 车 键 进行 确认 后 ， 可 以 看 到 系统 产生 了 
一 个 新 的 变量 : 聚 类 变量 _clus 2 (cluster name: _clus 2) 。 


cluster kmeans Zzv2 zyv3 zv4 zv5 zv6,k(3) 
eluster name: olus 2 


图 18.39 按 旅 游 目的 进行 的 聚 类 分 析 结 果 图 5 
选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 


到 如 图 18.40 所 示 的 _clus_2 数据。 


wi Ey 
1 太原 .099772 
了 酝 锅 .0915003 
3 大 连 -1.13546 
4, RA -.387734 
s MN .0649908 
. 石 麻生 -5228518 
多 无 妊 -4278975 
. MN -524067 
3 广州 “-.7768486 
10 上 才 -5830472 
了 天 办 -.5455368 
2 北京 ”-.1730333 
2 莫 州 -1.012003 
14 这 间 -1.273578 
1s KD .5608178 
6 商 京 1.201574 
7 09917) 
a8 晴 放 该。 .2625669 
19 WN .2200 
20 C5 
3 町 和 墙 物 。 1.269753 
2 与 由 水 开 -1198537 


m3 
6101255 


-4620785 
-4.201333 
-563261 
-14.011963 
-13200028 


-0410992 


00189 


753234 
3.657337 


-7200493 
-4610538 
-3013992 
-1.183753 


13572 
3518024 
7903417 
S8276 


0095374 


2.505902 
.31426553 
5063393 


Em 
4.308212 
445583 
-0464855 
.3468778 
742092 
.6621402 
-0830071 
-41.308212 
1266395 
7423433 
-S002146 
750951 
-30821z 
-ak6es25 
-747715 
4843576 
,6140812 
6456537 
3920931 
4.651018 
Ta7616 
4.701645 


Ee Em 
1.221628 1.258056 
3921657 ~.1958362 
.0630763 -1.379065 
0467487 .2345147 
.20392163 ~.9048905 
0457266 .1553807 
-L21628 .2237953 
600921 -1.097524 
S39722 4354455 
4.322898 ~.5919797 
+0771064 ~.0002078 
2922291 .5874082 
.221628 -1.437391 
2491702 ~.8692644 
1.221628 -6616555 
-1.20628 -1.591178 
,3402406 -1,518789 
188968 。 1.519587 
14643573 .720827 
2557 14794808 
-445096 1.136724 
7570809 .9756699 


图 18.40” 按 旅游 目的 进行 的 聚 类 分 析 结 果 图 6 


从 图 18.40 中 可 以 看 到 所 有 的 观测 样本 被 分 为 3 类 ， 其 中 广州 、 苏 州 、 北 京 、 天 津 、 大 连 、 
长 沙 、 青 岛 、 沈 阳 、 石 家 庄 、 郑 州 、 杭 州 、 太 原 、 武 汉 、 无 锡 属于 第 1 类 ， 乌 鲁 木 齐 、 长 春 、 
哈尔滨 、 上 海 、 银 川 属 于 第 2 类 ， 呼 和 浩特 、 南 京 、 深 圳 属于 第 3 类 。 

为 观测 3 类 样本 的 特征 ， 可 以 对 数据 进行 排序 操作 ， 在 主 界面 的 “Command” 文 本 框 中 


输入 操作 命令 : 


sort clus 2 


并 按键 盘 上 的 回 车 键 进行 确认 ， 然 后 选择 “Data”|“ Data Editor”|“ Data Editor(Browse)” 


命令 ， 进 入 数据 查看 界面 ， 可 以 看 到 如 图 18.41 所 示 的 整理 后 的 数据 。 
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让 析 与 行业 应 用 案例 详解 (2) NN 
CAC AEC AAAAAAAAAAAAAA NANNA\ 


un za = zw cus lus 
1 广州 A753234 -1.266395 。 .1533722 .43844 1 
2 CE -3013932 -1.308212 -1.221628 1 
3 北京 -4610538 。 .1750351 .2922291 ~ 1 
4 天 志 ~.7200493 -.50c2146 -.077 1 
s 6 -1.201313 -04 
日 1 
7 1 
二 1 
日 
an 
1 1 
1 
1 
14 1 
和 
16 2 
37 2 
18 上 老 1.322838 ~.S919797 1 
19 | .133288 -0895374 4643573 .720827 2 
20 。。。 呈 和 陆 物 1.269753 。 .1426553 -4653076 2 
21 NR 。 1.201574 .9518024 。 .4849576 -1.231628 。 1.893171 2 
2 .9973 。 .7903417 -34032406 。 1.5187 


图 18.41 按 旅游 目的 进行 的 聚 类 分 析 结 果 图 7 


从 图 18.41 中 可 以 看 到 第 1 类 所 代表 的 人 均 旅 游 消 费 支出 特点 是 “观光 游览 ”最 低 、“ 探 
亲 访 友 ” 最 低 、“ 商 务 ” 最 低 、“ 公 务 会 议 ” 中 等 、“ 度 假 休闲 ”最 低 ; 第 2 类 所 代表 的 人 均 
旅游 消费 支出 特点 是 “观光 游览 ”中 等 、“ 探 亲 访 友 ” 最 高 、“ 商 务 ” 最 高 、“ 公 务 会 议 ” 最 
高 、“ 度 假 休闲 ”中 等 ;第 3 类 所 代表 的 人 均 旅 游 消费 支出 特点 是 “观光 游览 ”最 高 、“ 探 杀 
访 友 ”中 等 、“ 商 务 ”中 等 、“ 公 务 会 议 ” 最 低 、“ 度 假 休 闲 ” 最 高 。 

图 18.42 展示 的 是 设 定 聚 类 数 为 4， 然 后 使 用 “KK 个 平均 数 的 聚 类 分 析 ” 方 法 进行 分 析 的 
结果 。 在 输入 第 8 条 Stata 命令 并 且 分 别 按键 盘 上 的 回 车 键 进行 确认 后 ， 可 以 看 到 系统 产生 了 
一 个 新 的 变量 : 聚 类 变量 _clus_3 (cluster name: clus 3) 。 


图 18.42 ” 按 旅 游 目的 进行 的 聚 类 分 析 结果 图 8 


选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 18.43 所 示 的 _clus 3 数据 。 

从 图 18.43 中 可 以 看 到 所 有 的 观测 样本 被 分 为 4 类, 其 中 乌鲁木齐 、 武汉 、 北京、 石家庄 、 
青岛 、 银 川 属于 第 1 类 ， 呼 和 浩特 、 长 春 、 哈 尔 滨 、 深 圳 属于 第 2 类 ， 大 连 、 苏 州 、 上 海 、 郑 
州 、 沈 阳 、 天 津 、 广 州 、 杭 州 属于 第 3 类 ， 长 小、 无锡 、 太 原 、 南 京 属于 第 4 类 。 从 图 18.43 
中 很 难看 出 各 个 类 别 的 特征 ， 可 以 对 数据 进行 排序 操作 ， 在 主 界面 的 “Command” 文 本 框 中 
输入 操作 命令 : 


sort clus 3 
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a ~ Ba Ba = zw -cl eles el 


2 eM CC 

1 : | 
3 1 1 | 
4 1 : ual 
s 1 : | 
‘ 1 [ee 
7 1 国 | 
1 :上 | 
1 加 | 
10 加 | 
2 eal 
:el 
ua Bel 
4 a 
和 日 
16 2 | 
27 2 | 
1 | 
19 上 | 
20 -| 
a 和 
2 ml 7 ， 


图 18.43 ” 按 旅游 目的 进行 的 聚 类 分 析 结 果 图 9 


并 按键 盘 上 的 回 车 键 进行 确认 ， 然 后 选择 “Data”|“Data Editor”|“Data Editor(Browse)” 
命令 ， 进 入 数据 查看 界面 ， 可 以 看 到 如 图 18.44 所 示 的 整理 后 的 数据 。 


w me Er Ey Er ee es ew 
2 


aasvoo | 


a #997 .6101255 -1.08212 le221628 1.250056 1 :| 
R074 S034 076 -1.23163 和 8 1.89337 2 口 


图 18.44 按 旅游 目的 进行 的 聚 类 分 析 结 果 图 10 


从 图 18.44 中 可 以 看 到 第 1 类 所 代表 的 人 均 旅游 消费 支出 特点 是 “观光 游览 ” 较 低 、“ 探 
亲 访 友 ” 较 低 、“ 商 务 ” 最 高 、“ 公 务 会 议 ” 较 高 、“ 度 假 休 闲 ” 较 低 ; 第 2 类 所 代表 的 人 均 
旅游 消费 支出 特点 是 “观光 游览 ” 最 高 、“ 探 亲 访 友 ” 最 高 、“ 商 务 ” 较 高 、“ 公 务 会 议 ” 
最 高 、“ 度 假 休闲 ”最 高 ; 第 3 类 所 代表 的 人 均 旅游 消费 支出 特点 是 “观光 游览 ”最 低 、“ 探 
亲 访 友 ”最 低 、“ 商 务 ”最 低 、“ 公 务 会 议 ” 较 低 、“ 度 假 休 闲 ” 最 低 ; 第 4 类 所 代表 的 人 均 
旅游 消费 支出 特点 是 “观光 游览 ” 较 高 、“ 探 亲 访 友 ” 较 高 、“ 商 务 ” 较 低 、“ 公 务 会 议 ” 最 
低 、“ 度 假 休 闲 ” 较 高 。 

在 前 面 的 章节 中 也 提 到 过 ， 划 分 聚 类 分 析 的 特点 是 需要 事先 制定 拟 分 类 的 数量 。 究 竟 分 
成 多 少 类 是 合理 的 , 这 是 没有 定论 的 。 用户 需要 根据 自己 的 研究 和 需要 及 数据 的 实际 特点 加 入 
自己 的 判断 。 在 上 面 的 分 析 中 ， 我 们 尝试 着 把 样本 分 别 分 为 2、3、4 类 进行 了 研究 ， 可 以 看 出 
把 数据 分 成 两 类 是 过 于 粗糙 的 , 而 且 两 个 类 别 所 包含 的 样本 数量 的 差别 也 是 比较 大 的 ,而 把 数 
据 分 成 3 类 是 比较 合适 的 。 读 者 可 以 再 把 数据 分 成 5 类 、6 类 或 者 其 他 数量 的 类 别 进行 研究 ， 
观察 分 类 情况 ， 找 出 自己 认为 最 优 的 分 类 。 
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通过 聚 类 分 析 得 到 的 研究 结论 是 : 乌鲁木齐 、 武 汉 、 北 京 、 石 家 庄 、 青 岛 、 银 川 的 人 均 
旅游 消费 支出 特点 是 “观光 游览 ” 较 低 、“ 探 亲 访 友 ” 较 低 、“ 商 务 ” 最 高 、“ 公 务 会 议 ” 较 
高 、“ 度 假 休闲 ” 较 低 ; 呼 和 浩特、 长 春 、 哈 尔 滨 、 深 圳 的 人 均 旅 游 消费 支出 特点 是 “观光 游 
览 ” 最 高 、“ 探 亲 访 友 ” 最 高 、“ 商 务 ” 较 高 、“ 公 务 会 议 ” 最 高 、“ 度 假 休闲 ”最 高 ， 大 
连 、 苏 州 、 上 海 、 郑 州 、 沈 阳 、 天 津 、 广 州 、 杭 州 的 人 均 旅 游 消费 支出 特点 是 “观光 游览 ”最 
低 、“ 探 亲 访 友 ” 最 低 、“ 商 务 ” 最 低 、“ 公 务 会 议 ” 较 低 、“ 度 假 休 闲 ” 最 低 ; 长 沙 、 无 锡 、 
太原 、 南 京 的 人 均 旅 游 消费 支出 特点 是 “观光 游览 ” 较 高 、“ 探 亲 访 友 ” 较 高 、“ 商 务 ” 较 低 、 
“公务 会 议 ” 最 低 、“ 度 假 休闲 ” 较 高 。 


18.3.5 ”各 风景 区 按 其 自身 特点 进行 的 聚 类 分 析 


下 载 资源 :\video\chap18\… 


下 载 资源 :\sample\chap18\ 案 例 18.5.dta 


表 18.8 是 2007 年 我 国 部 分 国家 级 风景 名 胜 区 的 统计 数据 。 我 们 选取 了 26 个 著名 的 风景 
区 并 查找 了 相关 资料 ， 包 括 风景 名 胜 区 面积 、 游 人 量 、 景 区 资金 收入 、 景 区 资金 支出 等 , 准备 
按照 这 些 特征 变量 对 景区 名 称 进行 聚 类 分 析 。 


表 18.8 部 分 国家 级 风景 名 胜 区 数据 统计 
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( 续 表 ) 
风景 名 胜 区 面积 景区 资金 收入 景区 资金 支出 
风景 名 胜 区 名 称 。 | 风景 名 有 游人 量 万 人 次 。 | 景区 a | 
胶东 半岛 92 669 36 785 27641 | 
青州 59 33 485 510 


在 用 Stata 进行 分 析 之 前 ， 要 把 数据 录入 到 Stata 中 。 本 例 中 有 5 个 变量 ,分别 为 “风景 


名 胜 区 名 称 ”“ 风 景 名 胜 区 面积 ”“ 游 人 量 ”“ 景 区 资金 收入 ”“ 景 区 资金 支出 ”。 我 们 将 这 
5 个 变量 分 别 定义 为 VI~V5， 然 后 录入 相关 数据 。 录 入 完成 后 数据 如 图 18.45 所 示 。 


a 加 


18.45 案例 18.5 数据 


聚 类 分 析 的 分 析 步 骤 如 下 : 


四 进入 Stata 14.0， 打 开 相 关 数据 文件 ， 弹 出 主 界面 。 
加 在 主 界面 的 “Command” 文 本 框 中 分 别 输入 如 下 命令 并 按键 盘 上 的 回 车 键 进 行 确认 。 


egen zv2=std(V2): 本 命令 旨 在 对 V2 变量 数据 进行 标准 化 处 理 ， 标 准 化 处 理 方式 是 使 
变量 的 平均 数 为 0 而 且 标准 差 为 1。 

egen zv3=std(V3): 本 命令 旨 在 对 V3 变量 数据 进行 标准 化 处 理 ， 标 准 化 处 理 方式 是 使 
变量 的 平均 数 为 0 而 且 标准 差 为 1。 

egen zv4=std(V4): 本 命令 旨 在 对 V4 变量 数据 进行 标准 化 处 理 ， 标 准 化 处 理 方式 是 使 
变量 的 平均 数 为 0 而 且 标准 差 为 1。 

egen zv5=std(V5): 本 命令 旨 在 对 V5 变量 数据 进行 标准 化 处 理 ， 标 准 化 处 理 方式 是 使 
变量 的 平均 数 为 0 而 且 标准 差 为 1。 

cluster kmeans zv2 zv3 zv4 Zzv5,k(2): 本 命令 旨 在 对 V2~V5 的 标准 化 变量 进行 “K 个 平 
均 数 的 聚 类 分 析 ”， 设 定 的 聚 类 数 是 2。 

cluster kmeans zv2 zv3 zv4 zv5,k(3): 本 命令 旨 在 对 V2~V5 的 标准 化 变量 进行 “K 个 平 
均 数 的 聚 类 分 析 ”， 设 定 的 聚 类 数 是 3。 

cluster kmeans zv2 zv3 zv4 zv5,k(4): 本 命令 旨 在 对 V2~V5 的 标准 化 变量 进行 “K 个 平 
均 数 的 聚 类 分 析 ”， 设 定 的 聚 类 数 是 4。 
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WN 
贺 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 
在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 18.46~ 图 18.55 所 示 的 分 析 结 果 。 


1. 数据 标准 化 处 理 

在 分 析 过 程 中 前 4 条 Stata 命令 则 在 对 数据 进行 标准 化 处 理 ， 选 择 的 标准 化 处 理 方式 是 使 
变量 的 平均 数 为 0 而且 标准 差 为 1。 之 所 以 这 样 做 是 因为 我 们 进行 聚 类 分 析 的 变量 都 是 以 不 可 
比 的 单位 进行 的 测度 , 它们 具有 极为 不 同 的 方差 , 对 数据 进行 标准 化 处 理 可 以 避免 使 结果 受到 
具有 最 大 方差 变量 的 影响 。 在 输入 前 4 条 Stata 命令 并 且 分 别 按键 盘 上 的 回 车 键 进行 确认 后 ， 
选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 到 如 
图 18.46 所 示 的 变换 后 的 数据 。 
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图 1846 各 风 最 区 接 其 自身 特点 进行 的 聚 关 分 析 结 果 图 1 
2. K 个 平均 数 的 聚 类 分 析 


(1) 聚 类 数 为 2 
图 18.47 展示 的 是 设 定 聚 类 数 为 2， 然 后 使 用 “K 个 平均 数 的 聚 类 分 析 ” 方 法 进行 分 析 的 


结果 。 在 输入 第 5 条 Stata 命令 并 且 分 别 按键 盘 上 的 回 车 键 进行 确认 后 ， 可 以 看 到 系统 产生 了 


一 个 新 的 聚 类 变量 。 
+ cluster kmeans zw2 zw3 zy4 zv5,k(2) 


图 18.47 各 风景 区 按 其 自身 特点 进行 的 聚 类 分 析 结果 图 2 
选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 18.48 所 示 的 聚 类 数据 。 
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3。 焉 识 山 “-.6033704 ~.0265291 
30 。 胞 让 山 “-.3396887 ~.2386205 .60824 

和 1。 宇 窜 民 ”6807582 -432269 -4 

下 太 线 山 .要 90955 ~.2755059 。 2.80877; 

3 内 -1541947 -30317 -4 

14 两 内 .42I4602 -467J102 .5422336 -A688583 
15 72 
26。 轴 次 尖  .109087 -,3677195 -5163452 -5491614 
217。 EE 9 7 
8 RW 587055 ~.4765316 ~.6318536 ~.6043695 
39 关山 .9168833 .1578981 4,14607 2.356788 
20 7907 0 5 
得 三 证 山 94581 -976372 ~.0002496 -3.114643 
22 机 79 


BB 捕 山 .Ge8725 2 
24 股东 此 商 “-.5251827 .7462209 2.0055 。 .7377374 
25 青州 -.7332644 -T7767 -6417046 -5233432 
26 WB “1.479965 -0578818 .3979979 .i160449 1 


图 18.48 各 风景 区 按 其 自身 特点 进行 的 聚 类 分 析 结 果 图 3 


从 图 18.48 中 可 以 看 到 所 有 的 观测 样本 被 分 为 两 类 ， 其 中 武夷 山 、 三 清 山 、 太 姥山 、 胶 东 
半岛 、 鼓 浪 屿 、 云 居 山 、 泰 山 、 青 岛 崂山 、 井 冈 山 被 分 到 第 1 类 ， 梅 岭 、 清 源 山 、 青 州 、 桃 源 
洞 、 武 功 山 、 仙 女 湖 、 高 岭 、 名 卷 溪 、 金 湖 、 冠 乞 山 、 三 百 山 、 龟 峰 、 博 山 、 鼓 山 、 青 云 山 、 
十 八重 溪 、 玉 华 洞 被 分 到 第 2 类 。 

为 观测 两 类 样本 的 特征 ， 可 以 对 数据 进行 排序 操作 ， 在 主 界面 的 “Command” 文 本 框 中 
输入 操作 命令 : 


ES 


并 按键 盘 上 的 回 车 键 进行 确认 ， 然 后 选择 “Data”|“Data Editor”| “Data Editor(Browse)” 
命令 ， 进 入 数据 查看 界面 ， 可 以 看 到 如 图 18.49 所 示 的 整理 后 的 数据 。 

可 以 看 到 第 1 类 所 代表 的 景区 特点 是 “风景 名 胜 区 面积 ”“ 游 人 量 ”“ 景 区 资金 收入 ” 
“景区 资金 支出 ”都 相对 较 高 , 第 2 类 所 代表 的 景区 特点 是 “风景 名 胜 区 面积 ”“ 游 人 量 ”“ 景 
区 资金 收入 ”“ 景 区 资金 支出 ”都 相对 较 低 。 
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0 


lus 
ee 
2 170002496 .44464 
3 六 矿山 “3390955 -.2755059 2.808778 -.4738778 
志 腕 东兴 驴 -.5S251827 .7462209 2.0055 “7377374 
5 襄 浪 贱 。 ,1749075 1,555856 2,134871 93101871 
6 云 怖 山 2.993219 -,2976372 -.4123531 1.553762 
了 守山 1.473365 ~-.0578818 .3979979 .1160449 
和 嫩 咒 晴 山 1.688777 4.383126 .3139145 0221411 
9 养 网 山 "39168833 578961 3.14607 2.356788 
10 梅内 .1541947 “30317 -=.4518783 -~.5380697 
21 请 两 山 -~,70463929 -,4341133 ~ 7522 -~.597092 
32 专 州 ~-.722644 ~-.4267362 -.6417046 -.6239432 
33 鲍 两 调 ”-.3021542 ~-.4617774 -~.6330993 -~.6219357 
14 号 功 山 1.587055 ~.4765316 ~.6318596 ~.6043695 
15 旭 女 湖 "2409087 ~,3677195 ~.5163452 ~-,5491614 


16 两 网 -4234602 -~.4673102 -5422335 ~.4688589 
17 吉 颖 民 -.6807582 ~.412269 -~.4992806 -~.3709901 
18 金池 -.2179662 -1769409 .5020518 .55642182 


19 尼 摧 山 -,3396887 -,2386205 -~.6052417 ~,5791243 
20 EL -.2439335 ~.445179 ~.6376936 ~.4964127 


21 入 时 -8423175 -3990721 -5940212 -~,5903165 
22 重山 -6388725 .1947835 。 -.378078 ~.4723721 
2 总 山 “-.7764371 -~.0541932 ~.6250046 ~.6102416 


24 。 本 坪山 .7645297 ~.3750366 ~.4072483 -2731214 
25 十 八重 性 ~.7046929 -.4746873 -~.6621238 -~.6389999 
26 玉山 间 -3064154 ~.3492768 -~.6099619 ~.5441425 


图 18.49 各 风景 区 按 其 自身 特点 进行 的 聚 类 分 析 结 果 图 4 


(2) 聚 类 数 为 3 

图 18.50 展示 的 是 设 定 聚 类 数 为 3， 然后 使 用 “K 个 平均 数 的 聚 类 分 析 ” 方 法 进行 分 析 的 
结果 。 在 输入 第 6 条 Stata 命令 并 且 分 别 按键 盘 上 的 回 车 键 进行 确认 后 ， 可 以 看 到 系统 产生 了 
一 个 新 的 变量 : 聚 类 变量 clus 2 (clustername: clus 2) 。 


图 18.50 各 风景 区 按 其 自身 特点 进行 的 聚 类 分 析 结 果 图 5 


选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 18.51 所 示 的 _clus_2 数据 。 


a va ™ Ba z4 -aqwm- 
下 郊 山 .46029794 .0265291 。 3.14607 。 .805944 
站。 三 症 山 。 ,294541。 -39763723 -0002496 。 3.114643 
了 六 同 山 ,8930955 ,2755053 。 2.808778 ,4718778 
4 及 东 村 琴 “5253827 .7462209 2.0055 。 .7377374 
‘ 
7 


ppp 


了 


二 坑 绩 .1749075 。 1.555856 。 2.134871 。 .39401871 
云 大 山 “2.993213 .2976372 .42353431.553762 
要 山 1.473365 -0578818 。 ,13979973 .A160449 

将 亢 晴 山 1.688777 。 4.333126 。 -3139145 。 03221431 
MA “94688093 。 .1578981 。 1.14607 2.356788 


生财 .14544347 。 .0817 -4518785780697 
下。 二 西山 -.7046529 -4341133 -6067522 。 -85370993 
王 惠州 “-.722644 -4267362 .6417046 -6239432 


二 全 天 风 -9023542 -4647774 -613099] ~.6249357 
4 下 光山 1587055 -4765316 .63318596 .6043695 
下。 贡 妇 贿 。 .403087 .1677135 ,5167452 54391614 


6 0 0 .5423338 -4689589 
7 室 安 并 .6407582 -412269 -~.43992406 -3709901 
庆 。 案 斋 -279662 -I763409 .5020518 -5642182 


29。 册 疡 山 .3396837 -~.2386205 -6052417 .573124 
20 BL 39235 -46179 .6376936 -4964127 
2 
22 请 山 .6388725 .1947835 。 -378078 -4723723 
233 坟 山 -7764371 -0541932 .6250046 -él02416 
4 本 坪山 .7645237 .1790965 .407246 ,27312314 
外 十 八重 桥 “-.7046329 -4746873 -6621238 .6389999 
二 则 调 -8064154 -1432768 -~.6099819 ~.5441425 


18.51 各 风景 区 按 其 自身 特点 进行 的 聚 类 分 析 结果 图 6 
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从 图 18.51 中 可 以 看 到 所 有 的 观测 样本 被 分 为 3 类 ， 其 中 武夷 山 、 三 清 山 、 胶 东 半 岛 、 云 
居 山 、 泰 山 、 太 姥山 、 鼓 浪 屿 、 井 冈 山 属于 第 1 类 , 十 八重 溪 、 金 湖 、 鼓 山 、 武 功 山 、 清 源 山 、 
冠 乞 山 、 高 岭 、 怨 痪 溪 、 仙 女 湖 、 博 山 、 桃 源 洞 、 梅 岭 、 玉 华 洞 、 青 云 山 、 青 州 、 三 百 山 、 急 
峰 必 于 第 2 类， 青岛 崂山 属于 第 3 类。 

为 观测 3 类 样本 的 特征 ， 可 以 对 数据 进行 排序 操作 ， 在 主 界面 的 “Command” 文 本 框 中 
输入 操作 命令 : 


sort clus 2 


并 按键 盘 上 的 回 车 键 进行 确认 ， 然 后 选择 “Data”| “Data Editor”| “Data Editor(Browse)” 
命令 ， 进 入 数据 查看 界面 ， 可 以 看 到 如 图 18.52 所 示 的 整理 后 的 数据 。 


图 18.52 ”各 风景 区 按 其 自身 特点 进行 的 聚 类 分 析 结 果 图 7 


从 图 18.52 中 可 以 看 到 第 1 类 所 代表 的 景区 特点 是 “风景 名 胜 区 面积 ”“ 游 人 量 ”“ 景 
资金 收入 ”“ 景 区 资金 支出 ”都 相对 处 于 中 等 水 平 ; 第 2 类 所 代表 的 景区 特点 是 “风景 名 胜 
面积 ”“ 游 人 量 ”“ 景 区 资金 收入 ”“ 景 区 资金 支出 ”都 相对 处 于 低 等 水 平 ; 第 3 类 所 代表 的 
景区 特点 是 “风景 名 胜 区 面积 ”“ 游 人 量 ”“ 景 区 资金 收入 ”“ 景 区 资金 支出 ”都 相对 处 于 高 
等 水 平 。 


(3) 聚 类 数 为 4 
图 18.53 展示 的 是 设 定 聚 类 数 为 4， 然后 使 用 “K 个 平均 数 的 聚 类 分 析 ” 方 法 进行 分 析 的 


结果 。 在 输入 第 7 条 Stata 命令 并 且 分 别 按键 盘 上 的 回 车 键 进行 确认 后 ， 可 以 看 到 系统 产生 了 
一 个 新 的 变量 : 聚 类 变量 _clus_3 (cluster name: _clus 3) 。 


Xl xX 


-cluster kmeans zv2 Zzv3 Zzv4 Zzv5,k(4) 
cluster name: clus 3 


图 18.53 各 风景 区 按 其 自身 特点 进行 的 聚 类 分 析 结果 图 8 


选择 “Data”|“Data Editor”|“Data Editor(Browse) ”命令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 18.54 所 示 的 _clus_3 数据 。 
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人 


了 业 应 用 案例 
WN 
"wm 
2 三 琐 山 -234581 ~.2976372 -~.0002436 3.414643 
3 胶东 吾 马 -.5S251827 .7462209 2.0055 。 -7377374 
bb 云 巩 山 2.993219 ~.2976372 -41423531 1.553762 
5 P4265 078818 979979 ,1360449 
6 太 纺 山 .8390955 ~.2755059 2.308778 -~.4738778 
7 前往 绩 .1749075 1.555856 2.434871 .9401871 
. WM 9268833 .2578961 .24607 2,356788 
多 十 八 醒 必 “.7046329 .4746873 .6621278 ~“.6149999 
20 金池 -~.2379662 -~.3769409 -.5020518 -.5642182 
7 0 00 -eol 
2 转 泊 1.587055 ~-.4765316 ~,6316596 ~-.6043695 
33 簿 而 山 ~.7046929 .4343193 ~.6057522 .597092 
24 硅 不 山 ~.3396887 .2386205 .6052417 -~.5793243 
5 西 峙 ”-.4234602 -.4673102 -.5422338 -.4688589 
16 宇 全 民 -.6807582 ~.432269 .4992806 .3709901 
27 如 冯 涵 -209087 .3677195 ,53263482 ~.$491614 


38 河山 -.6388735 。 .1947835 -~.378078 -4733731 
19 。 贸 隐 疯 -.3021542 -~.4617774 -~.6330993 .6239357 
20 0017 6 


24 。 于 直 砚 .064154 -1492768 ~.6099819 ~.5441425 
3 埋 且 山 -.7645337 ~.3750966 ~.4072483 ~.2734214 


Sr 


23 再 州 。-.722644 -.4267367 -6417046 -6239432 
24 i -.2499335 -445179 .6376936 ,43964127 
25 7 07 21 90465 


235 全 区 睛 出 1.688777 4.783426 .23439445 。 03234134 


18.54 各 风景 区 按 其 自身 特点 进行 的 聚 类 分 析 结 果 图 9 


从 图 18.54 中 可 以 看 到 所 有 的 观测 样本 被 分 为 4 类 ， 其 中 三 清 山 、 云 居 山 、 青 岛 崂 山 属于 
第 1 类 ， 武 功 山 、 泰 山 属于 第 2 类 ， 龟 峰 、 名 郑 溪 、 梅 岭 、 博 山 、 桃 源 洞 、 十 八重 溪 、 金 湖 、 
仙女 湖 、 玉 华 洞 、 青 州 、 清 源 山 、 青 云 山 、 三 百 山 、 冠 乞 山 、 鼓 山 、 高 岭 属 于 第 3 类 ， 鼓浪屿 、 
太 姥 山 、 井 冈 山 、 武 夷 山 、 胶 东 半 岛 属 于 第 4 类 。 从 图 18.54 中 很 难看 出 各 个 类 别 的 特征 ， 可 
以 对 数据 进行 排序 操作 ， 在 主 界面 的 “Command” 文 本 框 中 输入 操作 命令 : 


并 按键 盘 上 的 回 车 键 进行 确认 ， 然 后 选择 “Data”| “Data Editor”| “Data Editor(Browse)” 
命令 ， 进 入 数据 查看 界面 ， 可 以 看 到 如 图 18.55 所 示 的 整理 后 的 数据 。 


a va 9 Bo] wl ow? eh 
三 两 山 294543 .2976372 ~.0002496 3.334643 
王磊 山 2,993319 .2976372 -4123534 。 1.553762 
理 遍 晴 山 1.688777 4.18426 。 .1339145 .03234411 
正 功 山 。 1.587055 .4765346 -6318596 .6043695 

村 山 1.473165 ~.0578818 .3373379 .A160449 

7 9072 0 .5909165 
过 全 医 -.6807592 -~.432269 -~.4992806 ~.3709301 

和 0 

博 山 “-.6988725 9 
俩 曾 表 -9021542 .4617774 61103993 -6219957 
-7046929 -4746873 -6621238 639999 
鹤山 -2179662 .37694093 ~.5020518 .5642182 
项 妇 尖 .109087 -.3677195 -S163452 -5491614 
天 雪 交 -8064154 .1492764 ~.6039819 ~.5441425 
惠州 -.722644 -4267362 -6417046 -6239432 


SRESSESoeavanrsvuw- 
+ 
> 
Ld 
局 


二 两 山 .7046929 -.4341333 ~.6057522 。 -537092 

虱 云 山 ~.7645297 -~.3750966 ~.4072483 -27312314 
5 
19 已 兰 山 -~.3336847 .2386205 -.6052417 -5791243 
20 名 山 764971 ~.0541912 ~.6250046 -6102416 
21 两 网 ~.4234602 -~.4673302 .5422338 -4688589 
对 钥 坑 绩 ,4749075 1,555856 2.134871 ,9101871 
23 太后 山 。 -6930355 ~.2755059 2.808778 .4738778 
24 MA 9833 1578961 1.14607 。 2.356788 
本 次 山 ,6029704 -~.0265291 1.14607 .8059443 
26 腕 订 于 是 “-.5253827 .7462209 2.0055 .7377374 


18.55 各 风景 区 按 其 自身 特点 进行 的 聚 类 分 析 结果 图 10 


wp 
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从 图 18.55 中 可 以 看 出 ,第 1 类 所 代表 的 景区 特点 是 “风景 名 胜 区 面积 ”非常 大 、“ 游 人 

”比较 大 、“ 景 区 资金 收入 ”比较 大 、“ 景 区 资金 支出 ”非常 大 ; 第 2 类 所 代表 的 景区 特点 
是 “风景 名 胜 区 面积 ” 比较 大 、“ 游 人 量 ” 比 较 小 、“ 景 区 资金 收入 ”比较 小 、“ 景 区 资金 支 
出 ”比较 小 ; 第 3 类 所 代表 的 景区 特点 是 “风景 名 胜 区 面积 ”非常 小 、“ 游 人 量 ” 非 常 小 、“ 景 
区 资金 收入 ”非常 小 、“ 景 区 资金 支出 ”非常 小 ; 第 4 类 所 代表 的 景区 特点 是 “风景 名 胜 区 面 
积 ” 比 较 小 、“ 游 人 量 ” 非 常 大 、“ 景 区 资金 收入 ”非常 大 、“ 景 区 资金 支出 ”比较 大 。 

在 前 面 的 章节 中 也 提 到 过 ， 划 分 聚 类 分 析 的 特点 是 需要 事先 制定 拟 分 类 的 数量 。 究 竟 分 
成 多 少 类 是 合理 的 , 这 是 没有 定论 的 。 用 户 需要 根据 自己 的 研究 和 需要 及 数据 的 实际 特点 加 入 
自己 的 判断 。 在 上 面 的 分 析 中 ,我 们 尝试 着 把 样本 分 别 分 为 2、3、4 类 进行 了 研究 ， 可 以 看 出 
把 数据 分 成 两 类 是 过 于 粗糙 的 ,而且 两 个 类 别 所 包含 的 样本 数量 的 差别 也 是 比较 大 的 , 而 把 数 
据 分 成 3 类 是 比较 合适 的 。 读 者 可 以 再 把 数据 分 成 5 类 、6 类 或 者 其 他 数量 的 类 别 进行 研究 ， 
观察 分 类 情况 ， 找 出 自己 认为 最 优 的 分 类 。 

通过 聚 类 分 析 得 到 的 研究 结论 是 : 三 清 山 、 云 居 山 、 青 岛 崂山 的 “风景 名 胜 区 面积 ”“ 游 
人 量 ”“ 景 区 资金 收入 ”“ 景 区 资金 支出 ”都 相对 处 于 中 等 水 平 ， 武功 山 、 泰 山 的 “风景 名 胜 
区 面积 ”“ 游 人 量 ”“ 景 区 资金 收入 ”“ 景 区 资金 支出 ”都 相对 处 于 低 等 水 平 ; 龟 峰 、 鲍 着 溪 、 
梅 岭 、 博 山 、 桃 源 洞 、 十 八重 溪 、 金 湖 、 仙 女 湖 、 玉 华 洞 、 青 州 、 清 源 山 、 青 云 山 、 三 百 山 、 
冠 秀山 、 鼓 山 、 高 岭 的 “风景 名 胜 区 面积 ”“ 游 人 量 ”“ 景 区 资金 收入 ”“ 景 区 资金 支出 ”都 
相对 处 于 高 等 水 平 。 


18.4 ”研究 结论 
根据 以 上 所 做 的 分 析 ， 可 以 比较 有 把 握 地 得 出 以 下 结论 ; 


。 按 性 别 和 年 龄 进行 分 类 ， 青 岛 、 长 小、 银川、 乌鲁木齐 、 太 原 、 哈 尔 滨 等 城市 的 城镇 
居民 无 论 男女 老少 ， 其 2007 年 人 均 旅 游 消 费 支 出 都 处 于 全 国 中 档 水 平 上 ; 长 春 、 南 
京 、 呼 和 浩特 、 深 圳 等 城市 的 城镇 居民 无 论 男女 老少 ， 其 2007 年 人 均 旅游 消费 支出 
都 处 于 全 国 高 档 水 平 上 ; 除 以 上 城市 之 外 的 其 他 城市 的 城镇 居民 无 论 男女 老少 ， 其 
2007 年 人 均 旅 游 消 费 支出 都 处 于 全 国 低档 水 平 上 。 

。 按 职 业 进 行 分 类 ， 上 上海、 郑州、 北京、 杭州、 武汉 、 青 岛 、 长 小 、 银 川 、 乌 和 鲁 木 齐 、 

太原 、 哈 尔 滨 、 无 锡 等 城市 的 城镇 居民 无 论 职 业 类 型 如 何 ， 其 2007 年 人 均 旅 游 消 费 
支出 都 处 于 全 国 中 档 水 平 上 ; 长 春 、 南 京 、 呼 和 浩特 、 深 圳 等 城市 的 城镇 居民 无 论 职 
业 类 型 如 何 ， 其 2007 年 人 均 旅 游 消 费 支 出 都 处 于 全 国 高 档 水 平 上 ; 除 以 上 城市 之 外 
的 其 他 城市 的 城镇 居民 无 论 职业 类 型 如 何 ， 其 2007 年 人 均 旅游 消费 支出 都 处 于 全 国 
低档 水 平 上 。 

e。 按 文化 水 平 进行 分 类 ， 长 小、 银川 、 太 原 、 哈 尔 滨 、 长 春 等 城市 的 城镇 居民 无 论文 化 
水 平 如 何 ， 其 2007 年 人 均 旅游 消费 支出 都 处 于 全 国 中 档 水 平 上 ; 南京 、 呼 和 浩特 、 
深圳 等 城市 的 城镇 居民 无 论文 化 水 平 如 何 ， 其 2007 年 人 均 旅 游 消费 支出 都 处 于 全 国 
高 档 水 平 上 ; 除 以 上 城市 之 外 的 其 他 城市 的 城镇 居民 无 论文 化 水 平 如 何 ， 其 2007 年 
人 均 旅 游 消费 支出 都 处 于 全 国 低档 水 平 上 。 
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按 旅游 目的 进行 分 类 ， 乌 重 木 齐 、 武 汉 、 北 京 、 石 家 庄 、 青 岛 、 银 川 的 人 均 旅游 消费 
支出 特点 是 “观光 游览 ” 较 低 、“ 探 亲 访 友 ” 较 低 、“ 商 务 ” 最 高 、“ 公 务 会 议 ” 较 高 、 
“度假 休闲 ” 较 低 ; 呼和浩特、 长春、 哈尔滨、 深圳 的 人 均 旅游 消费 支出 特点 是 “ 观 
光 游 览 ”最 高 、“ 探 亲 访 友 ” 最 高 、“ 商 务 ” 较 高 、“ 公 务 会 议 ”最 高 “度假 休闲 ”最 
高 ; 大 连 、 苏 州 、 上 海 、 郑 州 、 沈 阳 、 和 天津、 广州 、 杭 州 的 人 均 旅游 消费 支出 特点 是 
“观光 游览 ”最 低 、“ 探 亲 访 友 ” 最 低 、“ 商 务 ” 最 低 、“ 公 务 会 议 ” 较 低 、“ 度 假 休 闲 ” 
最 低 ; 长沙、 无锡、 太原、 南京 的 人 均 旅 游 消费 支出 特点 是 “观光 游览 ” 较 高 、“ 探 
亲 访 友 ” 较 高 、“ 商 务 ” 较 低 、“ 公 务 会 议 ” 最 低 、“ 度 假 休 闲 ” 较 高 。 

三 清 山 、 云 居 山 、 青 岛 崂 山 的 “风景 名 胜 区 面积 ”“ 游 人 量 ”“ 景 区 资金 收入 ”“ 景 区 
资金 支出 ”都 相对 处 于 中 等 水 平 ; 武功 山 、 泰 山 的 “风景 名 胜 区 面积 ”“ 游 人 量 ”“ 景 
区 资金 收入 ” “景区 资金 支出 ”都 相对 处 于 低 等 水 平 ; 龟 峰 、 轰 奢 溪 、 梅 岭 、 博 山 、 
桃源 洞 、 十 入 重 溪 、 金 湖 、 仙 女 湖 、 玉 华 洞 、 青 州 、 清 源 山 、 青 云 山 、 三 百 山 、 冠 前 
山 、 鼓 山 、 高 岭 的 “风景 名 胜 区 面积 ”“ 游 人 量 ”“ 景 区 资金 收入 ”“ 景 区 资金 支出 ” 
都 相对 处 于 高 等 水 平 。 


18.5 ”本 章 习 题 


(1) 表 18.9 是 2006 年 我 国 22 个 城市 城镇 居民 国内 旅游 出 游人 均 花 费 按 性 别 和 年 龄 进行 
分 类 的 数据 。 试 据 此 用 本 章 介绍 的 方法 将 各 城市 按 性 别 和 年 龄 进行 聚 类 。 


表 18.9 ”我国 2006 年 城镇 居民 国内 旅游 出 游人 均 花 费 情况 统计 〈 按 性 别 和 年 龄 分 组 ) (单位 : 元 /人 ) 


城市 男 女 65 岁 及 以 上 45~65 岁 | 25~44 岁 | 15-24 岁 0~14 岁 
北京 939.5 796.3 1046.6 704.2 494.1 
天 津 808.9 716.2 779.5 493.5 468.2 
石家庄 647.0 665.8 886.9 530.1 608.6 
太原 1159.7 1857.1 3292.9 656.9 
呼和浩特 2058.3 1800.2 80.7 1116.0 
沈阳 427.1 366.9 564.3 186.0 
大 连 309.8 249.4 277.5 113.0 
长 春 2553.8 1877.8 1410.2 1101.9 
哈尔滨 1408.2 1093.3 1450.0 331.6 
上 海 819.7 1116.1 1107.7 588.4 
南京 1570.0 1138.6 1327.9 994.0 
无 锡 1451.5 909.9 961.7 1350.4 
苏州 3002.7 822.7 686.4 2068.0 
杭州 802.6 821.7 893.9 413.1 
青岛 1347.8 1498.6 1161.6 207.1 
郑州 847.1 796.8 596.5 660.7 
武汉 粘 123 989.6 884.5 527.3 
长 沙 1623.4 1115.4 1209.4 446.4 
广州 591.2 668.3 628.3 418.8 
深圳 1867.1 1820.6 1865.9 1091.8 
银川 1202.6 1414.0 1004.4 1608.2 
乌鲁木齐 ”| 598.4 1019.6 671.9 312.3 


(2) 表 18.10 是 2006 年 我 国 22 个 城市 城镇 居民 国内 旅游 出 游人 均 花 费 按 职 业 进 行 分 类 
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数据 。 试 据 此 用 本 章 介 绍 的 方法 将 各 城市 按 职业 进行 聚 类 。 

表 18.10 我国 2006 年 城镇 居民 国内 旅游 出 游人 均 花 费 情 况 统计 〈 按 职业 分 组 ) (单位 : 元 /人 ) 
城市 公务 员 企 事业 管理 人 员 | 技术 人 员 商贸 人 员 a 
北京 1622.3 1319.2 1090.0 647.6 718.6 
天 津 1529.9 942.0 777.1 613.8 599.4 
石家庄 1226.2 836.7 938.9 636.4 481.7 
太原 1045.0 691.7 2113.1 1659.2 
呼和浩特 1688.7 2855.2 1265.4 561.0 
沈阳 519.8 449.4 405.5 456.5 
大 连 637.3 552.4 387.2 239.5 
长 春 1870.1 2635.9 2640.7 1606.5 2056.1 
哈尔滨 2746.9 2219.1 1351.4 1094.0 848.7 
上 海 1264.7 1116.1 1013.2 851.0 808.7 
南京 21102 1201.5 1694.0 820.0 674.3 
无 锡 2108.2 1258.6 1829.0 818.0 397.7 
苏州 9218.0 15195.7 1072.3 550.0 700.1 
杭州 1325.1 1481.6 594.7 9992 900.6 
青岛 2115.9 2043.6 1279.4 2274.2 787.9 
郑州 902.8 1020.2 961.8 183.0 1032.4 
武汉 2344.5 1415.0 2133.4 840.0 915.2 
长 沙 1611.0 2181.8 2090.2 1136.9 402.7 
广州 740.4 800.7 750.6 779.7 
深圳 1834.6 1818.9 1851.2 2041.3 2549.6 
银川 1554.7 2129.3 1165.8 1016.1 
乌鲁木齐 1892.2 1031.5 808.3 382.3 


(3) 表 18.11 是 2006 年 我 国 22 个 城市 城镇 居民 国内 旅游 出 游人 均 花 费 按 文 化 水 平 进行 
分 类 的 数据 。 试 据 此 用 本 章 介 绍 的 方法 将 各 城市 按 文 化 水 平 进行 聚 类 。 


表 18.11 我 国 2006 年 城镇 居民 国内 旅游 出 游人 均 花费 情况 统计 〈 按 文化 水 平分 组 ) (单位 : 元 /人 ) 
大 专 及 以 上 
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( 续 表 ) 
城市 大 专 及 以 上 中 专 及 高 中 初中 小 学 小 学 以 下 
深圳 1980.0 1509.6 1859.3 927.1 315.3 
银川 1527.7 1223.3 1099.5 1410.2 0 
乌鲁木齐 1016.5 825.2 507.9 439.7 254.6 
(4) 表 18.12 是 2007 年 我 国 22 个 城市 城镇 居民 国内 旅游 出 游人 均 花 费 按 旅 游 目 的 进行 


分 类 的 数据 。 试 据 此 用 本 章 介绍 的 方法 将 各 城市 按 旅 游 目 的 进行 聚 类 。 
表 18.12 我 国 2007 年 城镇 居民 国内 旅游 出 游人 均 花 费 情况 统计 〈 按 旅游 目的 分 组 ) (单位 : 元 /人 ) 


城市 观光 游览 探亲 访 友 商务 | 公务 会 议 度假 休闲 
北京 911.5 889.7 1025.2 1909.6 671.5 

天 津 819.1 618.5 833.2 1324.0 822.4 
石家庄 653.9 349.8 905.0 1930.5 789.9 
太原 1689.6 871.1 0 2898.5 1007.9 
呼和浩特 2876.1 1067.6 453.2 2810.5 1162.3 
沈阳 411.3 315.0 1842.0 609.7 303.2 

大 连 307.7 218.8 1286.1 138.2 

长 春 1826.2 3313.0 4222.3 1684.1 
哈尔滨 1066.1 2955.5 2687.0 1249.6 
上 海 737.8 4786.1 780.5 783.4 
南京 1236.6 1876.3 9763 2420.9 
无 锡 1028.9 2204.6 0 2727.1 
苏州 1940.2 11843.3 762.3 550.0 
杭州 987.9 343.8 1860.1 387.3 
青岛 1514.3 4390.8 2950.4 1202.9 
郑州 823.8 335.5 0 863.3 
武汉 1341.6 4860.2 2427.9 879.4 
长 沙 1585.3 4369.4 2326.5 553.3 
广州 721.8 233.2 662.8 358.5 
深圳 2466.9 | 10861 |1013.5 1466.9 1885.3 
银川 1577.7 2824.8 9152 1333.6 
乌鲁木齐 553.2 2418.9 3584.4 364.2 

(5) 根据 表 18.13 中 26 个 著名 的 风景 区 的 相关 资料 ， 按 照相 关 特 征 变 量 对 景区 名 称 进行 
聚 类 分 析 。 
表 18.13 国家 级 风景 名 胜 区 数据 统计 
风景 名 胜 区 名 称 风景 名 胜 区 面积 游人 量 / 万 人 次 景区 资金 收入 景区 资金 支出 


/平方 千 米 /万 元 /万 元 


西 岭 雪山 


483 58 5 4532 


青城山 


350 
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( 续 表 ) 
风景 名 胜 区 面积 量 /万 人 次 景区 资金 收入 景区 资金 支出 
风景 名 胜 区 名 称 。 | /平方 寺 米 游人 量 /万 人 次 历 元 /万 元 
云雾 山 775 30 3300 1500 


3614 


4505 


142 374 


马 岭 河 峡 


织 金 洞 


水 舞阳 河 


昆明 滇池 
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近年 来 ， 党 和 政府 高 度 重视 经 济 增长 方式 的 有 效 转变 问题 。 中 国共 产 党 的 十 八大 报告 指 
出 , 在 当代 中 国 ， 以 科学 发 展 为 主题 以 加 快 转变 经 济 发 展 方式 为 主线 ， 是 关系 我 国 发 展 全 局 
的 战略 抉择 。 

关于 经 济 增长 方式 的 分 类 ， 目 前 比较 流行 也 比较 常用 的 做 法 是 把 它 分 为 粗放 型 增长 和 集 
约 型 增长 两 类 。 其 中 , 粗放 型 增长 是 在 效率 没有 明显 提高 的 情况 下 ， 主 要 依靠 量 的 积累 ， 依 靠 
更 多 包括 资本 、 劳 动力 等 资源 的 投入 来 实现 经 济 增长 和 经 济 总 量 增加 的 增长 方式 , 这 也 是 经 济 
体 在 发 展 初始 通常 需要 经 历 的 一 个 阶段 。 与 粗放 型 增长 不 同 的 是 , 集约 型 增长 非常 注重 技术 的 
改进 与 升级 ， 注 重 资源 利用 效率 的 提升 ， 注 重生 产 效率 的 有 效 提 高 ， 强 调 质 的 方面 ， 强 调 在 不 
依靠 更 多 包括 资本 、 劳 动力 等 资源 的 投入 前 提 下 , 通过 提高 投入 产 出 比 来 实现 经 济 增长 和 经 济 
总 量 增加 。 通 常 所 说 的 经 济 增长 方式 的 转变 就 是 经 济 增长 方式 由 粗放 型 增长 方式 向 集约 型 增长 
方式 的 转变 。 本 章 就 以 实例 的 形式 来 介绍 一 下 Stata 14.0 在 经 济 增长 分 析 中 的 应 用 。 

2012 年 ， 济 南 市 面临 着 经 济 形势 复杂 严峻 、 社 会 矛盾 日 益 凸 显 、 改 革 发 展 稳定 的 压力 不 
断 加 大 的 重重 困难 。 在 这 种 情况 下 ， 市 委 、 市 政府 提出 了 要 坚持 以 科学 发 展 观 为 指导 ， 牢 牢 把 
握 科学 发 展 主题 的 指导 思想 ,并 把 发 展 实体 经 济 、 建 设 美丽 泉城 、 优 化 发 展 环境 、 创 新 社会 管 
理 4 方面 工作 作为 经 济 社会 发 展 的 重 中 之 重 ,作为 各 级 党 委 、 政 府 全 力 突破 的 主攻 方向 。 根据 
发 展 是 硬 道理 、 发 展 是 解决 所 有 问题 的 关键 的 指导 思想 , 做 好 这 4 方面 工作 的 基础 和 根本 就 在 
于 把 加 快 转变 经 济 增长 方式 作为 主线 。 加 快 经 济 增长 方式 转变 对 于 推动 济南 市 又 好 又 快 可 持续 
发 展 意义 重大 。 本 章 的 研究 目的 在 于 通过 实例 分 析 来 探索 济南 市 目前 经 济 增长 方式 的 具体 情 
况 。 


19.1 数据 来 源 与 研究 思路 


本 章 所 用 的 数据 包括 济南 市 1994 一 2010 年 地 区 生产 总 值 、 固 定 资产 投资 、 年 底 就 业 人 数 、 
财政 科技 投入 等 时 间 序列 数据 。 所 有 数据 均 取 自 历年 《济南 统计 年 鉴 》。 数 据 的 Excel 形式 如 
表 19.1 所 示 。 


表 19.1 案例 数据 
固定 资产 投资 / 亿 元 年 底 就 业 人 数 / 万 人 


地 区 生产 总 值 / 亿 元 财政 科技 投入 /万 元 


569.252 


150.8 


664.984 


181.24 


6123 


760.716 
856.448 


220.69 
12650 


\\\ 
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( 续 表 ) 
年 份 | 地 区 生产 总 值 / 亿 元 固定 资产 投资 / 亿 元 | 年 底 就 业 人 数 /万 人 财政 科技 投入 /万 元 
2000 | 952.18 305.95 347.4 13 027 
2001 | 1 066.16 344.15 18 659 
2002 | 1 200.83 404.69 20 184 
2003 | 1365.33 504.89 14 590 
2004 | 1618.87 651.3 20251 
2005 | 1 846.28 857 22 383 
2006 | 2 161.53 1 016.77 27 537 
2007 | 2 500.14 LISE7 40516 
2008 | 3 006.77 1 415.33 45 062 
2009 | 3 340.91 1 655.37 372.3 52 625 
2010 | 3 910.53 1 987.44 373.7 62 138 


本 数据 为 时 间 序 列 数据 ， 研 究 思路 是 : 首先 对 数据 进行 描述 性 分 析 ， 并 绘制 变量 的 时 间 


序列 趋势 图 , 简明 扼要 地 分 析 一 下 数据 特征 , 并 进行 了 相关 性 检验 , 探索 变量 之 间 的 相关 关系 ， 
然后 对 数据 中 各 个 时 间 序 列 变量 采用 多 种 方法 进行 单位 根 检验 , 综合 分 析 其 平稳 性 , 使 用 回归 
分 析 方 法 探索 平稳 变量 之 间 的 关系 , 并 使 用 迹 检验 这 种 协 整 检验 的 方式 对 非 平稳 数据 进行 协 整 
检验 , 综合 分 析 其 长 期 均衡 关系 , 又 对 两 个 非 平稳 变量 进行 了 格 兰 杰 因果 关系 检验 , 探讨 变量 
之 间 的 格 兰 杰 因果 关系 ， 最 后 建立 了 相应 的 误差 修正 模型 ， 并 提出 了 研究 结论 。 


19.2 ”描述 性 分 析 


B= 下 载 资源 :\video\chap19\… 


酬 下 载 资源 :\sample\chap19\ 案 例 19.dta 


本 案例 的 数据 变量 都 是 定 距 变量 ， 通 过 进行 定 距 变量 的 基本 描述 性 统计 ， 可 以 得 到 数据 
的 概要 统计 指标 ， 包 括 平均 值 、 最 大 值 、 最 小 值 、 标 准 差 、 百 分 位 数 、 中 位 数 、 偏 度 系 数 和 峰 
度 系数 等 。 通过 获得 这 些 指 标 , 可 以 从 整体 上 对 拟 分 析 的 数据 进行 宏观 的 把 握 , 为 后 续 进行 更 
深入 的 数据 分 析 做 好 必要 准备 。 


19.2.1 Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 要 把 数据 录入 到 Stata 中 。 本 例 中 有 5 个 变量 ， 分 别 为 年 份 、 
地 区 生产 总 值 、 固 定 资产 投资 、 年 底 就 业 人 数 和 财政 科技 投入 。 我 们 把 年 份 变 量 设 定 为 year， 
把 地 区 生产 总 值 变量 设 定 为 gdp， 把 固定 资产 投资 变量 设 定 为 invest， 把 年 底 就 业 人 数 变 量 设 
定 为 labor， 把 财政 科技 投入 变量 设 定 为 scientific， 变 量 类 型 及 长 度 采 取 系 统 默认 方式 ， 然 后 
录入 相关 数据 。 相 关 操作 在 第 1 章 中 已 有 详细 讲述 。 录 入 完成 后 数据 如 图 19.1 所 示 。 
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晶 Daa Editor(Edit) - 医 Wlodtal 人 0 


File Edit View Data Tools 
加 日 号 名 多 国生 | 了 : | 


year[1] 1994 


A Fiker variables here 


3 Name Label 

a | | gdp 地 区 生产 总 值 

s Te | | Pinvest 国定 资产 投资 

加 ss |3| mW labor 年 旗 就 业 人 数 。 | 导 
27 | | 吕 scientific 财政 科技 投入 | 
8 2001 10 a0.15 350.1 

9 2002 1200.33 404.69 352.7 | El gD | 
10 2003 1365.33 504.89 355.3 | | | 曾 Variables 了 Snapshoa | 
1 2004 16l8.37 e813 358.5 | 
2 005 ete. 2 DE 

13 200€ 2l6l.s3 1016.77 361l.8 e27537 Bvarables | 
14 2007 2500.14 1151.7 364-3 4051€ Name invest 

15 2008 3006.77 1415.33 367.4 45oe2 Label 国定 资产 投资 | 
16 2009 3340.91 1655.37 372.3 S2625 Type float a 
7 2010 3910.53 1987.44 373.7 62139 Format %8.0g 

Value label 
~ | 加 Notes | 

| » BDatw -| 
Ready Vars:5 Order Dataset Obs:17 Filter:Off Mode:Edit CAP NUM | 


19.1 案例 19 数 据 


先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 值 得 说 明 的 是 ， 本 例 中 需要 对 各 个 时 间 序列 变量 数 
据 进行 对 数 标准 化 处 理 ， 一 方面 我 们 可 以 消除 数据 异 方差 的 影响 ， 使 数据 更 适合 深入 分 析 ,， 并且 使 
数据 更 具 实际 意义 ， 另 一 方面 可 以 研究 变量 之 间 的 弹性 关系 。 在 没有 进行 对 数 变换 之 前 ， 变 量 之 间 
的 联动 关系 表现 为 自 变 量 的 变动 引起 因 变 量变 动 的 程度 , 在 进行 对 数 变换 之 后 , 变量 的 联动 关系 就 
表现 为 自 变 量变 动 的 百分比 引起 因 变 量变 动 的 百分比 的 程度 此 外 这 种 处 理 模式 也 契合 了 经 济 增长 
的 理论 的 经 典 模型 之 一 : 柯 布 -道格拉斯 生产 函数 模型 。 该 模型 常用 的 表述 形式 是 : 


InYt=o InKt+ BlnLt+ylnTt+ InAt+h 


其 中 ，Yt、Kt、Lt、Tt 分 别 表示 地 区 生产 总 值 、 固 定 资产 投资 、 年 底 就 业 人 数 和 财政 科 
技 投 入 。a、B 和 YY 分别 表示 固定 资产 投资 、 年 底 就 业 人 数 和 财政 科技 投入 的 产 出 弹性 ，lInAt 
为 常数 项 ， 而 h 是 随机 误差 项 。 

描述 性 分 析 的 步骤 如 下 : 

进入 Stata 14.0， 打 开 相 关 数据 文件 ， 弹 出 主 界面 。 

在 主 界面 的 “Command” 文 本 框 中 输入 如 下 命令 。 


generate lgdp=ln(gdp): 本 命令 旨 在 对 变量 “gdp” 进 行 对 数 变 换 。 

generate linvest=In(invest): 本 命令 间 在 对 变量 “invest” 进 行 对 数 变 换 。 

generate llabor=In(labor): 本 命令 旨 在 对 变量 “labor” 进 行 对 数 变换 。 

generate lscientific=ln(scientific): 本 命令 旨 在 对 变量 “scientific” 进 行 对 数 变换 。 
summarize gdp invest labor scientific lgdp linvest llabor lscientific,detail: 本 命令 旨 在 对 
地 区 生产 总 值 、 固 定 资产 投资 、 年 底 就 业 人 数 和 财政 科技 投入 等 变量 以 及 它们 的 对 数 
标准 化 变量 进行 描述 性 分 析 。 


© ©® ©® © ® 
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园 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 19.2~ 图 19.9 所 示 的 分 析 结 果 。 
1. 数据 标准 化 处 理 结果 


选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 19.2 所 示 的 lgdp 数据 。lgdp 数据 是 对 数据 gdp 进行 对 数 变 换 处 理 的 结果 。 


图 19.2 数据 标准 化 处 理 分 析 结 果 1 


选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 19.3 所 示 的 linvest 数据 。linvest 数据 是 对 数据 invest 进行 对 数 变换 处 理 的 结果 。 
oot Edivor (Ed Epodal 页 页 南 页 


| Fle Edit View Data Tools 
芒 国 是 名 名 国 33 了 了: 
区 4.2931952 


19.3 ”数据 标准 化 处 理 分 析 结 果 2 
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选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 19.4 所 示 的 llabor 数据 。llabor 数据 是 对 数据 labor 进行 对 数 变换 处 理 的 结果 。 
日 pate Editor Edig - 话 现 19dil en x 


File Edit View Data Tools 


证 囊 包 名 国生 了 了: 


5.7170277 


Ss0a9t 4-299196 | -7:702 国信 Firer variables here 

160194 

323 5 DN lbh osama 
re Wgdp 地 区 生产 总 值 
.63426 网 invest 

.752794 。 5- Wlabor 

eeenct 6 Bm scientific 

Elals 于 问 

1.090768 008: 1 

Tass 6 区 Variables [Snapshow| 
71-38983 . 


0328 
eh 日 Variables 


了 -824102 - Name 
008622 7-2553 Label 
aasse 7- Type 
271429 7 Format 
Valuelabel 


1 
4 
s 
学 

2 

9 

了 

3 

1 

于 

1 

2 


图 19.4 数据 标准 化 处 理 分 析 结果 3 
选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 19.5 所 示 的 lscientific 数据 。lscientific 数据 是 对 数据 scientific 进行 对 数 变换 处 理 的 结 
果 。 


.13994 4 - ™ Fitervarables here 
i0994 让 
地 区 生产 总 值 


.344323 
.499763 Se1s9922 

.6326 .3s67s9 
E782734 5.539977 
-asa754 8.723422 
.371819 8.941078 
T09076 6.003121 
.219151 6.22434 


7.389483 6.478971 
.520923 6-753438 
7-6978572 6.324386 
7.824102 1-048936 

45062 8.003622 7-255118 

S2628 8.11399 7.41178 

G2138 。 8.271428 7.534603 


Vars:9 Order Dataset Obs:17 Filter:Off Mode:Edit CAF NUM » 


19.5 ”数据 标准 化 处 理 分 析 结 果 4 
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2. 描述 性 分 析 结果 
图 19.6~ 图 19.9 给 出 了 地 区 生产 总 值 、 固 定 资产 投资 、 年 底 就 业 人 数 和 财政 科技 投入 等 变 
量 以 及 其 对 数 标准 化 变量 的 描述 性 分 析 结 果 。 


地 区 生产 总 值 年 底 就 业 人 数 

Percentiles Smalleat Percentiles Smallest 

1 372 372 304 304 

5 372 473.52 304 324.2 
0% 473.52 569.252 oba 17 pps 332.3 Ops 17 
5 760.716 664.984 Sum of Ug. 17 341.6 337.4 Sum of Wgt. 17 
0 1200.83 ean 1568.615 Wey Nean 349.8529 
Largeat sed, Dev. 1072.617 Largesr Sra, Dev 8.19598 

5 2161.53 2500.14 361.8 364.3 
os 3340.91 3006.77 Variance 1150507 ce Fd Varlance 329.6251 
ss 3910.53 3340.91 Skewness .8537391 7 2 Skewness essa 

9% 3910.53 3910.53 Kurtosis 2.567163 a Marconn 3.3027' 
固定 资产 投 次 财政 科技 投 入 

Percenciles Smallear Percentiles Sallest 

1 73.2 1432 1432 

ss 和 1432 2307 
os 112.76 obs 17 2307 3634 oba 17 
5 220.69 Sum or ugc. 了 7 Wu aas Sm of War， 17 
bos a0a.69 和 18559 ean 21812.06 
Largeat Std. Dev. 587.491 Largest Std, Dev. 18199.12 

ss 1151.7 27537 40516 
os 1415.33 nie i 52625 45062 Variance 3.31e+08 
5 1655.37 Pm i 62138 52625 Skeuness .8945362 
9 1987 tp ee 62138 62138 Furtosis 2.726649 


描述 性 分 析 结 果 图 1 图 19.7 ”描述 性 分 析 结 果 图 2 


llabor 
Percentiles Smalleat Percentiles Smallest 
1% 5.918894 918894 1% 5.717028 5-.717028 
5 5.918894 6.160194 Ss 5.717028 5.781361 
10% 6.160194 6.344323 obs 17 10* 5.781361 5.806038 Cbs 17 
ss 6.63426 65.499763 Sm of Vat. 7 ||ass 5.833641 5.821269 Sum of Vat. 17 
Sos 7.090768 Hean 7.132815 | |sos 5.865618 Hean 5.856201 
Largeat, Std. Dev. 7055021 Largeot Std, Dev. .05328 
ss ?1.678572 7.824102 ss 91091 5.897978 
os .13998 .008622 Variance 4977332 | | :ao ee 5.906451 varianca oo2ea 
ess 8.271428 8.113998 Skewness | 55 二 和 王 0 5.9197 Sas -1.042006 
9% 8.271428 .271428 Kurtosts 1.94138 | |oos 。 5.ozaasa 5.923453 urcoaia 3.920275 
linveat locientific 
Percentiles Smallest Percentiles Smallcat 
1 4.293195 4.293195 1 7.266828 7.266828 
Ss -4.293195 4.725262 5s 7.266020 7.743703 
1os 4.725262 5.015954 cba | ge ea 8.19809 oba 17 
ss。 5.396759 5.199822 Sum of Bar. | 0.719000 Sm Ge Wd 17 
Sos 6.003121 Jean E66 | | 9.034004 Hean 9.559961 
Largeat Std. Dev. ‘9860055 Largest Std. Dev. 1.084743 
ss 6.924386 7.048995 ss lo.zzazs 10.60945 
os .41178 7.255118 Variance ‘9722068 | |sos C10.87095 10.71579 Variance 1.176667 
ss 1.594603 7.41178 Skewness -1962487 | |sss -11.03ns 10.87095 skewness -5424312 
59* 7.594603 7.594603 Fuerontise 2. I99s 11.03711 11.03711 Kurtosis 2.570768 


图 19.8 ”描述 性 分 析 结果 图 3 图 19.9 描述 性 分 析 结果 图 4 


在 如 图 19.6~ 图 19.9 所 示 的 分 析 结果 中 ， 可 以 得 到 很 多 信息 。 此 处 限于 篇 幅 不 再 针对 各 个 
变量 一 一 展开 说 明 ， 以 变量 lscientific 为 例 进行 解释 。 


ee 百 分 位 数 (Percentiles ): 可 以 看 出 变量 lscientific 的 第 1 个 四 分 位 数 ( 25% ) 是 8.947286， 
第 2 个 四 分 位 数 (50% ) 是 9.834084。 


427 


L939 


428 


4 个 最 小 值 ( Smallest ): 变量 lscientific 最 小 的 4 个 数据 值 分 别 是 7.266828、7.743703、 
8.19809、8.719808。 

4 个 最 大 值 (Largest): 变量 lscientific 最 大 的 4 个 数据 值 分 别 是 10.60945、10.71579、 
10.87095、11.03711。 

平均 值 (Mean ) 和 标准 差 (Std. Dev): 变量 lscientific 的 平均 值 为 9.559961， 标 准 差 
是 1.084743。 

偏 度 ( Skewness ) 和 峰 度 (Kurtosis ): 变量 lscientific 的 偏 度 为 -0.6424312， 为 负 偏 度 
但 不 大 。 变 量 lscientific 的 峰 度 为 2.570768， 有 一 个 比 正 态 分 布 略 短 的 尾巴 。 


从 上 面 的 描述 性 分 析 结 果 中 可 以 看 出 ， 所 有 数据 中 没有 极端 数据 ， 数 据 间 的 量 纲 差距 也 
在 可 接受 范围 之 内 ， 可 以 进入 下 一 步 的 分 析 过 程 。 


19.3 ”时 间 序 列 趋势 图 


我 们 通过 绘制 时 间 序 列 趋势 图 操作 可 以 迅速 看 出 数据 的 变化 特征 ， 为 后 续 更 加 精确 地 判 
断 或 者 选择 合适 的 模型 做 好 必要 准备 。 


Stata 分 析 过 程 


时 间 序 列 趋 势 图 分 析 的 步骤 如 下 : 


加 进入 Stata 14.0， 打 开 相 关 数 据 文件 ， 弹 出 主 界面 。 
在 主 界面 的 “Command” 文 本 框 中 输入 如 下 命令 。 


tsset year: 本 命令 旨 在 把 数据 定义 为 时 间 序 列 ， 时 间 变 量 为 “year”。 

twoway(line gdp year): 本 命令 旨 在 绘制 变量 “gdp” 随 时 间 变 量 “year” 变 动 的 时 间 
趋势 图 。 

twoway(line invest year): 本 命令 旨 在 绘制 变量 “invest” 随 时 间 变 量 “year” 变 动 的 时 
间 趋 势 图 。 

twoway(line labor year): 本 命令 旨 在 绘制 变量 “labor” 随 时 间 变 量 “year” 变 动 的 时 
间 趋 势 图 。 

twoway(line scientific year): 本 命令 旨 在 绘制 变量 “scientific” 随 时 间 变 量 “year” 变 
动 的 时 间 趋 势 图 。 

twoway(line lgdp year): 本 命令 间 在 绘制 变量 “lgdp” 随 时 间 变 量 “year” 变 动 的 时 间 
趋势 图 。 

twoway(line linvest year): 本 命令 旨 在 绘制 变量 “linvest” 随 时 间 变 量 “year” 变 动 的 
时 间 趋 势 图 。 

twoway(line llabor year): 本 命令 旨 在 绘制 变量 “llabor” 随 时 间 变量 “year” 变 动 的 时 
间 趋 势 图 。 

twoway(line lscientific year): 本 命令 旨 在 绘制 变量 “lscientific” 随 时 间 变量 “year” 变 
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动 的 时 间 趋 势 图 。 
。 twoway(line d.lgdp year): 本 命令 旨 在 绘制 变量 “d.lgdp” 随 时 间 变量 “year” 变 动 的 
时 间 趋 势 图 。 
。 twoway(line d.linvest year): 本 命令 旨 在 绘制 变量 “d.linvest” 随 时 间 变 量 “year” 变 动 
的 时 间 趋 势 图 。 
etwoway(line dllabor year): 本 命令 旨 在 绘制 变量 “d.llabor” 随 时 间 变 量 “year” 变 动 
的 时 间 趋 势 图 。 
e twoway(line d.lscientific year): 本 命令 旨 在 绘制 变量 “d.lscientific” 随 时 间 变 量 “year” 
变动 的 时 间 趋 势 图 。 


贺 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


19.3.2 ”结果 分 析 


在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 19.10~ 图 19.22 所 示 的 分 析 结 果 。 
图 19.10 显示 的 是 我 们 把 年 份 作为 日 期 变量 对 数据 进行 时 间 定 义 的 结果 。 


.tsset Year 
time variable: year, 1994 to 2010 


delta: 1 unit 


图 19.10 ”时 间 序 列 趋势 图 分 析 结 果 图 1 
从 上 述 分 析 结 果 中 ， 可 以 看 到 时 间 变 量 是 年 份 (year) ， 区 间 范 围 是 从 1994~2010， 间 距 
为 1。 
图 19.11 显示 的 是 变量 地 区 生产 总 值 随时 间 的 变动 趋势 。 
从 上 述 分 析 结 果 中 ， 可 以 看 到 变量 地 区 生产 总 值 具有 明显 、 稳 定 的 长 期 增长 趋势 。 
图 19.12 显示 的 是 变量 固定 资产 投资 随时 间 的 变动 趋势 。 
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图 19.11 时 间 序列 趋势 图 分 析 结 果 图 2 图 19.12 时 间 序列 趋势 图 分 析 结果 图 3 


从 上 述 分 析 结 果 中 ， 可 以 看 到 变量 固定 资产 投资 具有 明显 、 稳 定 的 长 期 增长 趋势 。 
图 19.13 显示 的 是 变量 年 底 就 业 人 数 随时 间 的 变动 趋势 。 从 分 析 结 果 中 ， 可 以 看 到 变量 年 
底 就 业 人 数 具 有 明显 、 稳 定 的 向 上 增长 趋势 。 
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图 19.14 显示 的 是 变量 财政 科技 投入 随时 间 的 变动 趋势 。 
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1995 2000 年 份 2005 2010 1995 2000 年 从 2005 2010 
图 19.13 时 间 序 列 趋势 图 分 析 结果 图 4 图 19.14 时间 序列 趋势 图 分 析 结 果 图 5 


从 上 述 分 析 结 果 中 ， 可 以 看 到 变量 财政 科技 投入 具有 明显 、 稳 定 的 长 期 变动 趋势 。 

图 19.15 显示 的 是 变量 地 区 生产 总 值 的 对 数值 随时 间 的 变动 趋势 。 从 分 析 结 果 中 ,可 以 看 
到 变量 地 区 生产 总 值 的 对 数值 具有 明显 、 稳 定 的 长 期 增长 趋势 。 

图 19.16 显示 的 是 变量 固定 资产 投资 的 对 数值 随时 间 的 变动 趋势 。 
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图 19.15 时间 序列 趋势 图 分 析 结 果 图 6 19.16 ”时 间 序 列 趋势 图 分 析 结 果 图 7 


从 上 述 分 析 结 果 中 ， 可 以 看 到 变量 固定 资产 投资 的 对 数值 具有 明显 、 稳 定 的 长 期 增长 趋 
势 。 

图 19.17 显示 的 是 变量 年 底 就 业 人 数 的 对 数值 随时 间 的 变动 趋势 。 从 分 析 结 果 中 ， 可 以 看 
到 变量 年 底 就 业 人 数 的 对 数值 具有 上 明显、 稳定 的 向 上 增长 趋势 。 

图 19.18 显示 的 是 变量 财政 科技 投入 的 对 数值 随时 间 的 变动 趋势 。 
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19.17 “时间 序列 趋势 图 分 析 结 果 图 8 图 19.18 时间 序 列 趋势 图 分 析 结果 图 9 


从 上 述 分 析 结果 中 ， 可 以 看 到 变量 财政 科技 投入 的 对 数值 具有 明显 、 稳 定 的 长 期 变动 趋 
势 。 
图 19.19 显示 的 是 变量 地 区 生产 总 值 的 对 数值 的 一 阶 差分 值 随时 间 的 变动 趋势 , 从 分 析 结 
果 中 ， 可 以 看 到 变量 地 区 生产 总 值 的 对 数值 的 一 阶 差分 值 没有 明显 、 稳 定 的 长 期 增长 趋势 。 
图 19.20 显示 的 是 变量 固定 资产 投资 的 对 数值 的 一 阶 差分 值 随时 间 的 变动 趋势 。 
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19.19 ”时 间 序 列 趋势 图 分 析 结 果 图 10 图 19.20 时间 序 列 趋势 图 分 析 结 果 图 11 


从 上 述 分 析 结 果 中 ， 可 以 看 到 变量 固定 资产 投资 的 对 数值 的 一 阶 差分 值 没有 明显 、 稳 定 
的 长 期 增长 趋势 。 

图 19.21 显示 的 是 变量 年 底 就 业 人 数 的 对 数值 的 一 阶 差分 值 随时 间 的 变动 趋势 , 从 分 析 结 
果 中 ， 可 以 看 到 变量 年 底 就 业 人 数 的 对 数值 的 一 阶 差分 值 没有 明显 、 稳 定 的 向 上 增长 趋势 。 

图 19.22 显示 的 是 变量 财政 科技 投入 的 对 数值 的 一 阶 差分 值 随 时 间 的 变动 趋势 。 
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图 19.21 时 间 序 列 趋势 图 分 析 结 果 图 12 图 19.22 时间 序列 趋势 图 分 析 结果 图 13 
从 上 述 分 析 结 果 中 ， 可 以 看 到 变量 财政 科技 投入 的 对 数值 的 一 阶 差分 值 没 有 明显 、 稳 定 
的 长 期 变动 趋势 。 


综 上 所 述 ， 通 过 绘制 时 间 序 列 趋势 图 发 现 变量 地 区 生产 总 值 、 固 定 资产 投资 、 年 底 就 业 
人 数 、 财 政 科技 投入 的 值 以 及 其 对 数 标准 化 的 值 都 是 有 明显 、 稳 定 的 向 上 增长 趋势 的 , 而 变量 
地 区 生产 总 值 、 固 定 资产 投资 、 年底 就 业 人 数 、 财 政 科技 投入 的 对 数值 的 一 阶 差 分 值 是 没有 明 
显 、 稳 定 的 时 间 趋 势 的 。 这 些 结论 将 会 在 后 续 的 操作 命令 中 被 用 到 。 


19.4 ”相关 性 分 析 


相关 分 析 是 不 考虑 变量 之 间 的 因果 关系 而 只 研究 分 析 变 量 之 间 的 相关 关系 的 一 种 统计 分 
析 方 法 , 通过 该 步 操作 可 以 判断 出 变量 之 间 的 相关 性 , 从 而 考虑 是 否 有 必要 进行 后 续 分 析 或 者 
增加 新 的 变量 等 。 


19.4.1 ”Stata 分 析 过 程 


相关 性 分 析 的 步骤 如 下 : 


进入 Stata 14.0， 打 开 相 关 数据 文件 ， 弹 出 主 界面 。 
加 在 主 界面 的 “Command” 文 本 框 中 输入 如 下 命令 : 


correlate gdp invest labor scientific,covariance 
correlate lgdp linvest llabor lscientific,covariance 
correlate gdp invest labor scientific 

correlate 1lgdp linvest llabor lscientific 

pwcorr gdp invest labor scientific,sidak sig star(0.01) 
pwcorr lgdp linvest llabor lscientific,sidak sig star(0.01) 


加 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 
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19.4.2 ”结果 分 析 


在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 19.23~ 图 19.28 所 示 的 分 析 结 果 。 
图 19.23 展示 的 是 变量 地 区 生产 总 值 、 固 定 资产 投资 、 年 底 就 业 人 数 和 财政 科技 投入 之 间 
的 方差 - 协 方差 矩阵 。 


|. correlate gdp invest labor scientific,covariance 


gdp invest labor scient~c 


1.2e+06 
628790 。 345146 
16633 8832.29 329.625 
scientific | 1.9e+07 1.0e+07 280244 3.3e+08 


19.23 ”相关 性 分 析 结 果 图 1 


从 上 述 分 析 结 果 中 ， 可 以 看 到 地 区 生产 总 值 的 方差 是 1.2e+t06， 固 定 资产 投资 的 方差 是 
345146， 年 底 就 业 人 数 的 方差 是 329.625， 财 政 科技 投入 的 方差 是 3.3e+08， 地 区 生产 总 值 与 
固定 资产 投资 之 间 的 协 方差 是 628790， 地 区 生产 总 值 与 年 底 就 业 人 数 之 间 的 协 方差 是 16633， 
地 区 生产 总 值 与 财政 科技 投入 之 间 的 协 方差 是 1.9e+t07， 固 定 资产 投资 与 年 底 就 业 人 数 之 间 的 
协 方差 是 8832.29， 固 定 资产 投资 与 财政 科技 投入 之 间 的 协 方差 是 1.0e+07， 财 政 科技 投入 与 
年 底 就 业 人 数 之 间 的 协 方差 是 280244。 可 以 发 现 变量 之 间 的 方差 差别 是 非常 大 的 ， 我 们 对 数 
据 进 行 对 数 变换 处 理 是 非常 有 必要 ， 也 是 非常 有 意义 的 。 

图 19.24 展示 的 是 变量 地 区 生产 总 值 、 固 定 资产 投资 、 年 底 就 业 人 数 和 财政 科技 投入 对 数 
值 之 间 的 方差 - 协 方差 矩阵 。 


。 correlate lgdp linvest llabor lscientific,covariance 
(obs=17) 


| lgdp linvest llabor lscien~c 


lgdp | .497733 
linvest | .694545 .972207 
llabor | .035708 .050341 .002839 
lscientific | .738007 1.0331 .056466 1.17667 


图 19.24 相关 性 分 析 结 果 图 2 


从 上 述 分 析 结 果 中 ， 可 以 看 到 地 区 生产 总 值 的 对 数值 的 方差 是 0.497733， 固 定 资产 投资 
的 对 数值 的 方差 是 0.972207, 年 底 就 业 人 数 的 对 数值 的 方差 是 0.002839, 财政 科技 投入 的 对 数 
值 的 方差 是 1.17667， 地 区 生产 总 值 对 数值 与 固定 资产 投资 对 数值 之 间 的 协 方差 是 0.694545， 
地 区 生产 总 值 对 数值 与 年 底 就 业 人 数 对 数值 之 间 的 协 方差 是 0.035708, 地 区 生产 总 值 对 数值 与 
财政 科技 投入 对 数值 之 间 的 协 方差 是 0.738007, 固定 资产 投资 对 数值 与 年 底 就 业 人 数 对 数值 之 
间 的 协 方 差 是 0.050341， 固 定 资产 投资 对 数值 与 财政 科技 投入 对 数值 之 间 的 协 方差 是 1.0331， 
财政 科技 投入 对 数值 与 年 底 就 业 人 数 对 数值 之 间 的 协 方差 是 0.056466。 可 以 发 现 对 变量 进行 对 
数 变换 处 理 后 ， 变 量 的 方差 差距 减少 了 很 多 ， 对 数 变换 处 理 起 到 了 应 有 的 效果 。 

图 19.25 展示 的 是 变量 地 区 生产 总 值 、 固 定 资产 投资 、 年 底 就 业 人 数 和 财政 科技 投入 之 间 
的 相关 系数 矩阵 。 
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. correlate gdp invest labor scientific 
{obs=17) 


| gdp invest labor scient~c 


invest 0.9978 1.0000 
labor 0.8541 0.8281 1.0000 


gap 1.0000 
scientific 0.9877 0.9817 0.8482 1.0000 


图 19.25 ”相关 性 分 析 结 果 图 3 


从 上 述 分 析 结 果 中 ， 可 以 看 到 变量 地 区 生产 总 值 、 固 定 资产 投资 、 年 底 就 业 人 数 和 财政 
科技 投入 之 间 的 相关 系数 非常 高 。 其 中 地 区 生产 总 值 与 固定 资产 投资 之 间 的 相关 系数 是 
0.9978， 地 区 生产 总 值 与 年 底 就 业 人 数 之 间 的 相关 系数 是 0.8541， 地 区 生产 总 值 与 财政 科技 投 
入 之 间 的 相关 系数 是 0.9877, 固定 资产 投资 与 年 底 就 业 人 数 之 间 的 相关 系数 是 0.8281, 固定 资 
产 投资 与 财政 科技 投入 之 间 的 相关 系数 是 0.9817, 财政 科技 投入 与 年 底 就 业 人 数 之 间 的 相关 系 
数 是 0.8482。 各 变量 之 间 如 此 之 高 的 正 相 关系 数 在 一 定 程度 上 说 明 这 几 个 变量 之 间 很 可 能 存在 
着 一 定 的 联动 关系 ， 说 明 我 们 的 后 续 分 析 是 很 有 必要 的 。 

图 19.26 展示 的 是 地 区 生产 总 值 、 固 定 资产 投资 、 年 底 就 业 人 数 和 财政 科技 投入 等 变量 的 
对 数值 之 间 的 相关 系数 矩阵 。 


。 correlate lgdp linvest llabor lscientific 
(obs=17) 


lgdp linvest llabor lscien~c 


lgdp 1.0000 
linvest 0.9984 1.0000 
llabor 0.9500 0.9582 1.0000 
lscientific 0.9644 0.9659 0.9770 1.0000 


图 19.26 相关 性 分 析 结 果 图 4 


从 上 述 分 析 结 果 中 ， 可 以 看 到 地 区 生产 总 值 、 固 定 资产 投资 、 年 底 就 业 人 数 和 财政 科技 
投入 等 变量 的 对 数值 之 间 的 相关 系数 非常 高 。 其 中 地 区 生产 总 值 的 对 数值 与 固定 资产 投资 的 对 
数值 之 间 的 相关 系数 是 0.9984, 地 区 生产 总 值 的 对 数值 与 年 底 就 业 人 数 的 对 数值 之 间 的 相关 系 
数 是 0.9500, 地 区 生产 总 值 的 对 数值 与 财政 科技 投入 的 对 数值 之 间 的 相关 系数 是 0.9644, 固定 
资产 投资 的 对 数值 与 年 底 就 业 人 数 的 对 数值 之 间 的 相关 系数 是 0.9582, 固定 资产 投资 的 对 数值 
与 财政 科技 投入 的 对 数值 之 间 的 相关 系数 是 0.9659, 财政 科技 投入 的 对 数值 与 年 底 就 业 人 数 的 
对 数值 之 间 的 相关 系数 是 0.9770。 各 变量 之 间 如 此 之 高 的 正 相关 系数 在 一 定 程度 上 说 明 这 几 个 
变量 之 间 很 可 能 存在 着 一 定 的 联动 关系 ， 说 明 我 们 的 后 续 分 析 是 很 有 必要 的 。 

图 19.27 展示 的 是 变量 地 区 生产 总 值 、 固 定 资产 投资 、 年 底 就 业 人 数 和 财政 科技 投入 之 间 
的 相关 系数 矩阵 的 显著 性 检验 ， 设 定 置 信 水 平 为 99%。 从 分 析 结 果 中 可 以 看 到 4 个 变量 之 间 
的 相关 系数 非常 高 ， 均 通过 了 置信 水 平 为 99% 的 相关 性 检验 。 

图 19.28 展示 的 是 变量 地 区 生产 总 值 、 固 定 资产 投资 、 年 底 就 业 人 数 和 财政 科技 投入 之 间 
的 相关 系数 矩 阵 的 显著 性 检验 ， 设 定 置信 水 平 为 99%。 
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. pwcorr lgdp linvest llabor lsoientific,sidak sig star(0.01) * pwcorr gdp invest labor scientific,sidak sig star(0.01) 
| lgdp linvest llabor lscienrc | gap invest labor scient~c 
1gdp 1.0000 gap 1.0000 
linvest | 0.9984* 1.0000 invest | 0.9978* 1.0000 
90.0000 0.0000 
llabor | 0.9500* 0.9582* 1.0000 labor | 0.8541* 0.8281* 1.0000 
0.0000 0.0000 0.0001 0.0002 
lsciencific 0.9644* 0.9659* 0.9770* 1.0000 scientitic 0.9877* 0.9817* 0.8482* 1.0000 
0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 
图 
图 19.27 相关 性 分 析 结 果 图 5 图 19.28 ”相关 性 分 析 结 果 图 6 


从 上 述 分 析 结果 中 可 以 看 到 4 个 变量 经 对 数 变换 处 理 之 后 的 相关 系数 依然 非常 高 ， 均 通 
过 了 置信 水 平 为 99% 的 相关 性 检验 。 


19.5 ”单位 根 检验 


对 于 时 间 序 列 数据 而 言 ， 数 据 的 平稳 性 对 于 模型 的 构建 是 非常 重要 的 。 如 果 时 间 序 列 数 
据 是 不 平稳 的 ,可 能 会 导致 自 回归 系数 的 估计 值 向 左 偏向 于 0， 使 传统 的 了 检验 失效 ， 也 有 可 
能 会 使 得 两 个 相互 独立 的 变量 出 现 假 相 关 关系 或 者 回归 关系 , 造成 模型 结果 的 失真 。 单 位 根 检 
验 是 判断 数据 是 否 平稳 的 重要 方法 。 只 有 进行 了 该 步 操作 才能 进行 后 续 深入 的 分 析 。 


19.5.1 Stata 分 析 过 程 


可 以 发 现 经 过 对 数 变换 处 理 之 后 的 变量 要 优 于 原 变量 ， 所 以 在 后 续 的 分 析 中 不 再 包含 原 
变量 ， 只 针对 对 数 变换 之 后 的 变量 进行 分 析 , 并 得 出 研究 结论 。 本 例 我 们 采用 3 种 单位 根 检验 
分 析 方 法 ， 分 别 是 PP 检验 、ADF 检验 以 及 DF-GLS 检验 。 通 过 绘制 时 间 序 列 趋势 图 可 以 发 现 
变量 地 区 生产 总 值 、 固 定 资产 投资 、 年 底 就 业 人 数 、 财 政 科技 投入 的 值 以 及 其 对 数 标准 化 的 值 
都 是 有 明显 、 稳 定 的 向 上 增长 趋势 的 ， 而 变量 地 区 生产 总 值 、 固 定 资产 投资 、 年 底 就 业 人 数 和 
财政 科技 投入 的 对 数值 的 一 阶 差 分 值 是 没有 明显 、 稳定 的 时 间 趋 势 的 。 这些 结论 将 会 在 单位 根 
检验 的 操作 命令 中 被 用 到 。 

1. PP 检验 

操作 步骤 如 下 : 

进入 Stata 14.0， 打 开 相 关 数据 文件 ， 弹 出 主 界面 。 

加 在 主 界面 的 “Command” 文 本 框 中 分 别 输入 如 下 命令 并 按键 盘 上 的 回 车 键 进 行 确认 。 

。 pperron lgdp,trend: 本 命令 旨 在 对 “lgdp” 变 量 运用 PP 检验 方法 进行 单位 根 检验 ， 

以 判断 该 时 间 序 列 变量 是 否 平稳 。 
。 pperron linvest,trend: 本 命令 旨 在 对 “linvest” 变 量 运 用 PP 检验 方法 进行 单位 根 检 
验 ， 以 判断 该 时 间 序列 变量 是 否 平稳 。 
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。 pperron llabor,trend: 本 命令 旨 在 对 “llabor” 变 量 运 用 PP 检验 方法 进行 单位 根 检验 ， 
以 判断 该 时 间 序 列 变量 是 否 平稳 。 

epperron lscientific,trend: 本 命令 旨 在 对 “lscientific” 变 量 运 用 PP 检验 方法 进行 单位 
根 检 验 ， 以 判断 该 时 间 序 列 变量 是 否 平稳 。 

epperron d.ledp,notrend: 本 命令 旨 在 对 “d.lgdp” 变 量 运 用 PP 检验 方法 进行 单位 根 检 
验 ， 以 判断 该 时 间 序 列 变量 是 否 平稳 。 

。 pperron d.lscientific,notrend: 本 命令 旨 在 对 “d.lscientific” 变量 运用 PP 检验 方法 进 
行 单位 根 检验 ， 以 判断 该 时 间 序 列 变量 是 否 平稳 。 


加 设置 完毕 后 ， 等 待 输出 结果 。 
2. ADF 检验 
操作 步骤 如 下 : 


加 进入 Stata 14.0， 打 开 相 关 数据 文件 ， 弹 出 主 界面 。 
加 在 主 界面 的 “Command” 文 本 框 中 分 别 输入 如 下 命令 并 按键 盘 上 的 回 车 键 进行 确认 。 


。 dfuller lgdp,trend: 本 命令 旨 在 对 “lgdp” 变 量 运用 ADF 检验 方法 进行 单位 根 检验 ， 
以 判断 该 时 间 序 列 变量 是 否 平稳 。 

e dfuller linvest,trend: 本 命令 旨 在 对 “linvest” 变 量 运 用 ADF 检验 方法 进行 单位 根 检 
验 ， 以 判断 该 时 间 序 列 变量 是 否 平稳 。 

。 dfuller llabor,trend: 本 命令 间 在 对 “llabor” 变量 运用 ADF 检验 方法 进行 单位 根 检验 ， 
以 判断 该 时 间 序 列 变量 是 否 平稳 。 

。e dfuller lscientific,trend: 本 命令 旨 在 对 “lscientific” 变 量 运 用 ADF 检验 方法 进行 单 
位 根 检 验 ， 以 判断 该 时 间 序 列 变量 是 否 平稳 。 

。 dfuller dlgdp,notrend: 本 命令 旨 在 对 “d.lgdp” 变 量 运用 ADF 检验 方法 进行 单位 根 
检验 ， 以 判断 该 时 间 序 列 变量 是 否 平稳 。 

。 dfuller d.lscientific,notrend: 本 命令 旨 在 对 “d.lscientific” 变 量 运 用 ADF 检验 方法 进 
行 单位 根 检 验 ， 以 判断 该 时 间 序 列 变量 是 否 平稳 。 

加 设置 完毕 后 ， 等 待 输出 结果 。 

3. DF-GLS 检验 

操作 步骤 如 下 : 

进入 Stata 14.0， 打 开 相 关 数 据 文件 ， 弹 出 主 界面 。 

加 在 主 界面 的 “Command” 文 本 框 中 分 别 输入 如 下 命令 并 按键 盘 上 的 回 车 键 进 行 确认 。 

e dfgls lgdp: 本 命令 旨 在 对 “lgdp” 变 量 运用 DF-GLS 检验 方法 进行 单位 根 检验 ， 以 
判断 该 时 间 序 列 变量 是 否 平稳 。 

。 dfels linvest: 本 命令 旨 在 对 “linvest” 变 量 运 用 DF-GLS 检验 方法 进行 单位 根 检验 ， 
以 判断 该 时 间 序 列 变量 是 否 平稳 。 

。 dfgls ”llabor: 本 命令 旨 在 对 “llabor” 变 量 运 用 DF-GLS 检验 方法 进行 单位 根 检验 ， 
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以 判断 该 时 间 序 列 变量 是 否 平稳 。 


e dfgls ”lscientific: 本 命令 旨 在 对 “lscientific” 变 量 运 用 DF-GLS 检验 方法 进行 单位 
根 检验 ， 以 判断 该 时 间 序 列 变量 是 否 平稳 。 


加 设置 完毕 后 ， 等 待 输出 结果 。 

19.5.2 ”结果 分 析 
在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 19.29~ 图 19.44 所 示 的 分 析 结 果 。 
1. PP 检验 的 结果 


PP 检验 的 结果 如 图 19.29~ 图 19.34 所 示 。 其 中 图 19.29 展示 的 是 对 “lgdp” 变 量 运用 PP 
检验 方法 进行 单位 根 检验 的 结果 。 


~ pperron lgdp,trend 


Phillips-Perron teat for unit root 


Number of obs = 
Nevey-Vest lags = 


Interpolated Dickey-Fuller 
18 Critical Sy Critical 
Value 


Tear 10% Critical 
Staristic 


Value Value 


Zz(rho) -10.950 -22.500 
zc) 


-17.900 -15.600 
-3.015 -4.380 


-3.600 -3.240 


图 19.29 单位 根 检验 分 析 结 果 图 1 

PP 检验 的 原 假设 是 数据 有 单位 根 , 从 上 面 的 结果 中 可 以 看 出 P 值 (MacKinnon approximate 
p-value for Z(t)) 为 0.1279， 接受 了 有 单位 根 的 原 假设 , 这 一 点 也 可 以 通过 观察 Z(t) 值 和 Z(rho) 
值得 到 。 实 际 Z(rho) 值 为 -10.950， 在 1% 的 置信 水 平 〈-22.300) 、5% 的 置信 水 平 〈-17.900) 、 
10% 的 置信 水 平 上 《〈-15.600) 都 无 法 拒绝 原 假 设 。 实 际 Z(D 值 为 -3.015， 在 1% 的 置信 水 平 
(-4.380) 、5% 的 置信 水 平 〈-3.600) 、10% 的 置信 水 平 上 《〈-3.240) 都 无 法 拒绝 原 假设 ， 所 以 
“lgdp” 这 一 变量 数据 是 存在 单位 根 的 ， 需 要 对 其 做 一 阶 差分 后 再 继续 进行 检验 。 

图 19.30 展示 的 是 对 “linvest” 变 量 运 用 PP 检验 方法 进行 单位 根 检验 的 结果 。 


Phillips-Perron test for unit root Number of obs = 


Nevey-Vest lags = 


Interpolated Dickey-Fuller 
5s Critical 
Value 


Tear 
Statistic 


13 Critical 


10% Critical 
Value 


Value 


2Ztrho) -11.641 -22.500 -17.900 -15.600 
zc) -3.965 


-4.380 -3.600 -3.240 


MacFinnon approximate p-value for 2(t) = 0.0099 


图 19.30 ”单位 根 检验 分 析 结 果 图 2 
PP 检验 的 原 假设 是 数据 有 单位 根 。 从 上 面 的 结果 中 可 以 看 出 P 值 (MacKinnon approximate 


p-value for Z(t)) 为 0.0099, 非常 显著 地 拒绝 了 有 单位 根 的 原 假设 , 这 一 点 也 可 以 通过 观察 Z(t) 
值得 到 。 实 际 Z( 值 为 -3.965， 处 在 1% 的 置信 水 平 (-4.380) 与 5% 的 置信 水 平 (-3.600) 之 间 ， 
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显著 地 拒绝 了 有 单位 根 的 原 假设 。 
图 19.31 展示 的 是 对 “llabor” 变 量 运 用 PP 检验 方法 进行 单位 根 检验 的 结果 。 


~ pperron llabor,trend 


phillips-Perron test for unit rooc Number of obs = 16 
Nevey-Uest lags = 2 
Interpolated Dickey-Fuller 
Test 13 Critical 5% Ceicical 10% Critical 
Statistic Value Value Value 
Ztrho) -10.129 -22.500 -17.900 -15.600 
ztc) -22.825 -4.380 -3.600 -3.240 


Mackinnon approximate p-value for Z(t) = 0.0000 


图 19.31 单位 根 检验 分 析 结 果 图 3 


PP 检验 的 原 假 设 是 数据 有 单位 根 。 从 上 面 的 结果 中 可 以 看 出 P 值 (MacKinnon approximate 
p-value for Z(t)) 为 0.0000， 拒 绝 了 有 单位 根 的 原 假设 ， 这 一 点 也 可 以 通过 观察 Z(t) 值 得 到 。 
实际 Z(t) 值 为 -22.825， 在 1% 的 置信 水 平 〈-4.380) 、5% 的 置信 水 平 〈-3.600) 、10% 的 置信 水 
平 上 〈-3.240) 都 拒绝 了 原 假设 ， 所 以 “llabor” 这 一 变量 数据 是 不 存在 单位 根 的 。 

图 19.32 展示 的 是 对 “lscientific” 变 量 运 用 PP 检验 方法 进行 单位 根 检验 的 结果 。 


Phillips-Perron test for unic root Number of obs = 
Nevey-Vest lags = 


Interpolated Dickey-Fuller 
Tesc 1] Critical Ss Critical 10% Critical 
Statistic Value Value Value 


Zrho) -5.375 -22.500 -17.900 -15.600 
ze) -2.673 -4.380 -3.600 -3.240 


Wackinnon approximate p-value for Z(t) = 0.2476 


图 19.32 单位 根 检验 分 析 结 果 图 4 


PP 检验 的 原 假设 是 数据 有 单位 根 , 从 上 面 的 结果 中 可 以 看 出 P 值 (MacKinnon approximate 
p-value for Z(t)) 为 0.2476， 显 著 地 接受 了 有 单位 根 的 原 假设 ， 这 一 点 也 可 以 通过 观察 Z(D 值 
和 Z(rho) 值 得 到 。 实 际 Z( 值 为 -2.673, 在 1% 的 置信 水 平 (-4.380) 、5% 的 置信 水 平 (-3.600) 、 
10% 的 置信 水 平 上 《〈-3.240) 都 接受 了 原 假设 ， 实 际 Z(rho) 值 为 -5.375， 在 1% 的 置信 水 平 

(-22.500) 、5% 的 置信 水 平 〈-17.900) 、10% 的 置信 水 平 上 《〈-15.600) 都 接受 了 原 假设 ， 所 
以 “lscientific” 这 一 变量 数据 是 存在 单位 根 的 。 
图 19.33 展示 的 是 对 “dlgdp” 变 量 运用 PP 检验 方法 进行 单位 根 检 验 的 结果 。 


+ pperron qd.1lgdp,notrend 


Phillips-Perron teat for unit root Number of obs = 15 
Nevey-Vest lags = 


一 -一 Interpolated Dickey-Fuller 
Test 13 Critical Ss Critical 10% Critical 


Statistic Value Value Value 
Zrho) -10.554 -17.200 -12.500 -10.200 
ztc) -4.133 -3.750 -3.000 -2.630 


Nackinnon approximate p-value for Z(t) = 0.0009 


图 19.33 单位 根 检验 分 析 结 果 图 5 
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p-value for Z(D) 为 0.0009， 显 著 拒绝 了 有 单位 根 的 原 假 设 ， 这 一 点 也 可 以 通过 观察 Z(t) 值 得 
到 。 实 际 Z(t) 值 为 -4.133， 在 1% 的 置信 水 平 〈-3.750) 、5% 的 置信 水 平 〈-3.000) 、10% 的 置 
信 水 平 上 〈-2.630) 都 拒绝 了 原 假设 ， 所 以 “dlgdp” 这 一 变量 数据 是 不 存在 单位 根 的 。 

图 19.34 展示 的 是 对 “d.lscientific” 变 量 运 用 PP 检验 方法 进行 单位 根 检验 的 结果 。 


Nunber of obs = 
Nevey-Vest lags = 


Interpolated Dickey-Fuller 一 一 一 一 
13 Critical 5s Critical 10% cricical 
Value Value Value 


-17.200 -12.500 -10.200 
-3.750 -3.000 -2.630 


for 2(t) = 0.0060 


图 19.34 单位 根 检验 分 析 结 果 图 6 


PP 检验 的 原 假设 是 数据 有 单位 根 。, 从 上 面 的 结果 中 可 以 看 出 P 值 (MacKinnon approximate 
p-value for Z(t)) 为 0.0060， 显 著 地 拒绝 了 有 单位 根 的 原 假设 ， 这 一 点 也 可 以 通过 观察 Z(t) 值 
和 Z(rho) 值 得 到 。 实际 Z(t) 值 为 -3.588, 处 于 1% 的 置信 水 平 (-3.750) 与 5% 的 置信 水 平 (-3.000) 
之 间 ， 拒 绝 了 原 假设 。 实 际 Z(rho) 值 为 -14.066， 处 于 1% 的 置信 水 平 (-17.200) 与 5% 的 置信 
水 平 (-12.500) 之 间 ， 拒 绝 了 原 假设 ， 所 以 “d.lscientific” 这 一 变量 数据 是 不 存在 单位 根 的 。 

2. ADF 检验 的 结果 

ADF 检验 的 结果 如 图 19.35~ 图 19.40 所 示 。 其 中 图 19.35 展示 的 是 对 “lgdp” 变 量 运 用 
ADF 检验 方法 进行 单位 根 检验 的 结果 。 

i 


Interpolated Dickey-Fuller 
Teat 5s Critical 10% Critical 


Statistic Value 


Zle) -3.066 


MacKinnon approximate p-value for 2(t) = 0.1145 


图 19.35 单位 根 检验 分 析 结果 图 7 


ADF 检验 的 原 假 设 是 数据 有 单位 根 。 从 上 面 的 结果 中 可 以 看 出 P 值 (MacKinnon 
approximate p-value for Z(t)) 为 0.1145, 接受 了 有 单位 根 的 原 假 设 , 这 一 点 也 可 以 通过 观察 Z(t) 
值得 到 验证 。 实 际 Z(b 值 为 -3.066， 在 1% 的 置信 水 平 (-4.380) 、5% 的 置信 水 平 〈-3.600) 、 
10% 的 置信 水 平 上 〈-3.240) 都 无 法 拒绝 原 假设 ， 所 以 “lgdp” 这 一 变量 数据 是 存在 单位 根 的 ， 
需要 对 其 做 一 阶 差分 后 再 继续 进行 检验 。 

图 19.36 展示 的 是 对 “linvest” 变 量 运用 ADF 检验 方法 进行 单位 根 检验 的 结果 。 
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+ dfuller linvest,trend 


Dickey-Fuller test for unit root Nuber of obs = 16 


Interpolated Dickey-Fuller 


Test 13 Critical St Critical 10* Critical 
Staristic Value Value Value 
z(t) -4.466 -4.380 -3.600 -3.240 


macginnon approximate p-value for Z(t) = 0.0017 


19.36 单位 根 检验 分 析 结 果 图 8 


ADF 检验 的 原 假设 是 数据 有 单位 根 。 从 上 面 的 结果 中 可 以 看 出 P 值 (MacKinnon 
approximate p-value for Z(D) 为 0.0017， 非 常 显著 地 拒绝 了 有 单位 根 的 原 假设 ， 这 一 点 也 可 以 
通过 观察 Z(t) 值 得 到 ,实际 Z(t) 值 为 -4.466, 在 1% 的 置信 水 平 (-4.380)、5% 的 置信 水 平 (-3.600)、 
10% 的 置信 水 平 〈-3.240) 上 都 显著 拒绝 了 有 单位 根 的 原 假设 ， 所 以 “linvest” 这 一 变量 数据 
是 不 存在 单位 根 的 。 

图 19.37 展示 的 是 对 “llabor” 变 量 运用 ADF 检验 方法 进行 单位 根 检验 的 结果 。 


. dfuller llabor,trend 


Dickey-Fuller test for unit root Number of obs = 16 


Interpolated Dickey-Fuller 
Test 1% Critical St Critical 10% Critical 
Statistic Value Value Value 


zt) -21.999 -4.380 -3.600 -3.240 


MacKinnon approximate p-value for z(c) = 0.0000 


图 19.37 单位 根 检验 分 析 结 果 图 9 


ADF 检验 的 原 假设 是 数据 有 单位 根 。 从 上 面 的 结果 中 可 以 看 出 P 值 (MacKinnon 
approximate p-value for Z(t)) 为 0.0000, 拒绝 了 有 单位 根 的 原 假设 , 这 一 点 也 可 以 通过 观察 Z(t) 
值得 到 验证 。 实 际 Z(t) 值 为 -21.999， 在 1% 的 置信 水 平 (-4.380〉、5% 的 置信 水 平 (-3.600)、 
10% 的 置信 水 平 (-3.240) 上 都 拒绝 了 原 假设 ,所 以 “llabor” 这 一 变量 数据 是 不 存在 单位 根 的 。 

图 19.38 展示 的 是 对 “lscientific” 变 量 运用 ADF 检验 方法 进行 单位 根 检验 的 结果 。 


Teat 13 Critical 5s Critical 10% Critical 
Statistic Value Value Value 


zc) -2.576 -4.380 -3.600 -3.240 


MacKinnon approximate p-value for Z(t) = 0.2911 


图 19.38 单位 根 检验 分 析 结 果 图 10 


ADF 检验 的 原 假设 是 数据 有 单位 根 。 从 上 面 的 结果 中 可 以 看 出 P 值 (MacKinnon 
approximate p-value for Z(t)) 为 0.2911， 显 著 地 接受 了 有 单位 根 的 原 假设 ， 这 一 点 也 可 以 通过 
观察 Z(D 值 得 到 。 实 际 Z(t) 值 为 -2.576, 在 1% 的 置信 水 平 -4.380) 、5% 的 置信 水 平 (-3.600) 、 
10% 的 置信 水 平 上 〈-3.240) 都 接受 了 原 假 设 ， 所 以 “lscientific ”这 一 变量 数据 是 存在 单位 根 
的 。 
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图 19.39 展示 的 是 对 “d.lgdp” 变 量 运 用 ADF 检验 方法 进行 单位 根 检验 的 结果 。 


+ dfuller d.lgdp,notrend 


Dickey-Fuller test for unit root Number of obs = 15 


Interpolated Dickey-Fuller 


Tesc 18 Critical 5# Critical 10* Critical 

Statistic Value Value Value 
ztc) -3.990 -3.750 -3.000 -2.630 
Mackinnon approximate p-value for Z(t) = 0.0015 


图 19.39 单位 根 检验 分 析 结果 图 11 


ADF 检验 的 原 假设 是 数据 有 单位 根 。 从 上 面 的 结果 中 可 以 看 出 P 值 (MacKinnon 
approximate p-value for Z(t)) 为 0.0015， 显 著 拒 绝 了 有 单位 根 的 原 假设 ， 这 一 点 也 可 以 通过 观 
察 Z(t) 值 得 到 。 实 际 Z(t) 值 为 -3.990， 在 1% 的 置信 水 平 〈-3.750) 、5% 的 置信 水 平 〈-3.000) 、 
10% 的 置信 水 平 -2.630) 上 都 拒绝 了 原 假设 ,所 以 “dlgdp” 这 一 变量 数据 是 不 存在 单位 根 的 。 

图 19.40 展示 的 是 对 “d.lscientific” 变 量 运 用 ADF 检验 方法 进行 单位 根 检验 的 结果 。 


Test 13 Critical 5 Critical 108 Critical 
Staristic Value Value Value 


z(t) -3.590 -3.750 -3.000 -2.630 


Nackinnon approximate p-value for Z(t) = 0.0060 


图 19.40 单位 根 检验 分 析 结 果 图 12 


ADF 检验 的 原 假设 是 数据 有 单位 根 。 从 上 面 的 结果 中 可 以 看 出 了 值 (MacKinnon 
approximate p-value for Z(t)〉 为 0.0060， 显 著 地 拒绝 了 有 单位 根 的 原 假设 ， 这 一 点 也 可 以 通过 
观察 ZQ) 值 得 到 。 实际 Z(t) 值 为 -3.590, 处 于 1% 的 置信 水 平 (-3.750) 与 5% 的 置信 水 平 (-3.000) 
之 间 ， 拒 绝 了 原 假设 ， 所 以 “d.lscientific” 这 一 变量 数据 是 不 存在 单位 根 的 。 


3. DF-GLS 检验 的 结果 


DF-GLS 检 验 的 结果 如 图 19.41~ 图 19.44 所 示 。 其 中 图 19.41 展示 的 是 “lgdp ”变量 的 DF-GLS 


DF-GLS for lgdp Number of obs = 9 
Naxlag = 7 chosen by Schvert criterion 


DF-GLS tau 1% Critical Ss Critical 10¢ Critical 

[lags] Test Statistic Value Value Value 
7 -0.713 -3.770 -7.782 -5.617 
6 -0.782 -3.770 -5.328 -3.779 
5 -1.533 -3.770 -3.828 -2.701 
4 -3.408 -3.770 -3.080 -2.217 
3 -1.679 -3.770 -2.882 -2.159 
2 -1.951 -3.770 -3.032 -2.361 
1 -0.928 -3.770 -3.326 -2.655 


Opt Lag (Ng-Perron seq t) = 4 vith RNSE .010138 
Min SC = -7.962249 ar lag 4 vith RNSE .010138 
Min NAIC = -7.116174 ar lag 1 vith RNSE .0219052 


图 19.41 单位 根 检验 分 析 结 果 图 13 
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优 滞后 阶 数 为 4 阶 (Opt Lag (Ng-Perron seq tb) = 4with RMSE 0.010138) ， 在 该 阶 数 下 DF-GLS 
统计 量 的 值 是 -3.408， 处 于 1% 的 置信 水 平 (-3.770) 与 5% 的 置信 水 平 (-3.080) 之 间 ， 拒 绝 了 
有 单位 根 的 原 假设 ， 所 以 “lgdp” 变 量 数据 是 不 存在 单位 根 的 。 这 一 点 显然 与 我 们 前 面 两 种 方 
法 的 检验 结果 不 一 致 , 但 这 也 是 正常 情况 , 事实 上 我 们 选择 多 种 检验 方法 对 数据 进行 单位 根 检 
验 的 初衷 就 是 综合 各 种 检验 方法 的 检验 结果 做 出 恰当 的 判断 。 

图 19.42 展示 的 是 “linvest” 变 量 的 DF-GLS 检验 结果 。 


， afgls linvest 


DF-GLS for linvest Number of obs = 9 
Naxlag = 7 chosen by Schvert criterion 


DF-GLS tau 1% Critical 5# Critical 10% Critical 

[lags] Test Statistic Value Value Value 
-1.528 -3.770 -7.782 -5.617 
6 -2.977 -3.770 -5.328 -3.779 
5 -4.065 -3.770 -3.828 -2.701 
4 -4.829 -3.770 -3.080 -2.217 
3 -7.066 -3.770 -2.882 -2.159 
2 -2.711 -3.770 -3.032 -2.361 
1 -2.960 -3.770 -3.326 -2.655 


Opt Lag (Ng-Perron seq t) = 3 vich RNSE .0113834 
Nin SC = -7.974657 ar lag 3 vith RNSE .0113834 
Nin NAIC = -3.247334 ac lag 1 with RNSE .0288839 


图 19.42 单位 根 检验 分 析 结 果 图 14 


DF-GLS 检验 的 原 假设 是 数据 有 单位 根 。 从 上 面 的 结果 中 可 以 看 出 根据 信息 准则 确定 的 最 
优 滞后 阶 数 为 3 阶 (Opt Lag (Ng-Perron seq t) = 3with RMSE.0113834) ， 在 该 阶 数 下 DF-GLS 
统计 量 的 值 是 -7.066， 在 1% 的 置信 水 平 〈-3.770) 、5% 的 置信 水 平 〈-2.882) 、10% 的 置信 水 
平 (-2.159) 上 都 显著 拒绝 了 有 单位 根 的 原 假设 ， 所 以 “linvest” 变 量 数 据 是 不 存在 单位 根 的 。 
图 19.43 展示 的 是 对 “llabor” 变 量 运用 DF-GLS 检验 方法 进行 单位 根 检验 的 结果 。 


DF-GLS for llabor Nunber of obs = 9 
Maxlag = 7 chosen by Schvert criterion 


DF-GLS tau 13 Critical Ss Critical 10% Critical 

[lags] Test Statistic Value Value Value 
7 -0.997 -3.770 -7.782 -5.617 
6 -0.955 -3.770 -5.328 -3.779 
5 -2.049 -3.770 -3.828 -2.701 
4 -1.146 -3.770 -3.080 -2.217 
3 -1.002 -3.770 -2.882 -2.159 
2 -1.004 -3.770 -3.032 -2.361 
1 -0.510 -3.770 -3.326 -2.655 


Opt Lag (Ng-Perron seq t) = 0 [use maxlag(0)] 
Min SC = -11.10706 ac lag 7 vith RMSE .0014589 
Min NAIC = -10.9429 at lag 1 with RNSE .0035652 


图 19.43 单位 根 检验 分 析 结 果 图 15 


DF-GLS 检验 的 原 假设 是 数据 有 单位 根 。 从 上 面 的 结果 中 可 以 看 出 根据 信息 准则 确定 的 最 
优 滞 后 阶 数 为 0 阶 (Opt Lag (Ng-Perron seqb = 0 [use maxlag(0)]) 。 但 是 结果 中 并 没有 0 阶 的 
体现 ， 我 们 可 以 观测 根据 MAIC 信息 准则 确定 的 1 阶 (Min MAIC = -10.9429 at lag 1 with 
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te ne 在 1 阶 的 时 候 ， 接 受 了 原 假 设 ， 变 量 数据 是 存在 单位 根 的 。 
显然 与 我 们 前 面 两 种 方法 的 检验 结果 不 一 致 ， 但 这 也 是 正常 情况 ， 事 实 上 我 们 选择 
ge ER EGR 和 三 
判断 。 
图 19.44 展示 的 是 对 “lscientific” 变 量 运用 DF-GLS 检验 方法 进行 单位 根 检验 的 结果 。 


+ afgls lscientific 


DF-GLS for lscientific Number of obs = 9 
Maxlag = 7 chosen by Schvert criterion 


DF-GLS tau 13 Critical 5s Critical 10% Critical 

[lags] Test Statistic Value Value Value 
-14.270 -3.770 -7.782 -5.617 
6 -1.646 -3.770 -5.328 -3.779 
5 -2.445 -3.770 -3.828 -2.701 
4 -1.959 -3.770 -3.080 -2.217 
3 -3.042 -3.770 -2.882 -2.159 
2 -2.376 -3.770 -3.032 -2.361 
1 -2.584 -3.770 -3.326 -2.655 


Opt Lag (Ng-Perron seq cr) = 7 with RNSE .008676 
Min SC = -7.541297 ac lag 7 vich RNSE .008676 
Min MAIC = -.9577767 at lag 1 with RMSE .1453201 


图 19.44 单位 根 检验 分 析 结 果 图 16 


DF-GLS 检验 的 原 假设 是 数据 有 单位 根 。 从 上 面 的 结果 中 可 以 看 出 根据 信息 准则 确定 的 最 
优 滞 后 阶 数 为 7 阶 (Opt Lag (Ng-Perron seq t) = 7 with RMSE 0.008676) ,在 该 阶 数 下 DF-GLS 
统计 量 的 值 是 -14.270， 拒 绝 了 原 假设 ， 不 存在 单位 根 。 这 一 点 显然 与 我 们 前 面 两 种 方法 的 检 
验 结果 不 一 致 , 但 这 也 是 正常 情况 , 事实 上 我 们 选择 多 种 检验 方法 对 数据 进行 单位 根 检验 的 初 
于 就 是 综合 各 种 检验 方法 的 检验 结果 做 出 恰当 的 判断 。 

根据 以 上 的 分 析 ， 综 合 考虑 三 种 检验 方法 的 检验 结果 ， 我 们 可 以 比较 有 把 握 地 得 出 以 下 
结论 ， 即 认为 变量 地 区 生产 总 值 的 对 数值 、 财 政 科技 投入 的 对 数值 是 存在 单位 根 的 ,变量 固定 
资产 投资 的 对 数值 、 年 底 就 业 人 数 的 对 数值 、 地 区 生产 总 值 的 对 数值 的 一 阶 差 分 值 、 财 政 科技 
投入 的 对 数值 的 一 阶 差分 值 是 不 存在 单位 根 的 。 在 该 结论 的 基础 上 , 我 们 将 进入 下 一 节 的 协 整 


19.6 协 整 检验 
在 时 间 序列 数据 不 平稳 的 情况 下 ， 构 建 出 合理 模型 的 重要 方法 就 是 进行 协 整 检验 并 构建 


合理 模型 。 协 整 的 思想 就 是 把 存在 一 阶 单 整 的 变量 放 在 一 起 进行 分 析 , 通过 这 些 变量 进行 线性 
组 合 ， 从 而 消除 他 们 的 随机 趋势 ， 得 到 其 长 期 联动 趋势 。 


19.6.1 Stata 分 析 过 程 


本 例 我 们 采用 迹 检验 协 整 检验 分 析 方 法 。 在 前 面 几 节 中 ， 我 们 通过 绘制 时 间 序列 趋势 图 
发 现 变 量 地 区 生产 总 值 、 固 定 资产 投资 、 年 底 就 业 人 数 和 财政 科技 投入 的 值 以 及 其 对 数 标准 化 


数 和 财政 科技 投入 的 对 数值 的 一 阶 差分 值 是 没有 明显 、 稳定 的 时 间 趋 势 的 。 通 过 PP 检验 、ADF 
检验 以 及 DF-GLS 检验 等 单位 根 检验 发 现 变量 地 区 生产 总 值 的 对 数值 、 财 政 科技 投入 的 对 数 


值 是 存在 单位 根 的， 变量 固定 资产 投资 的 对 数值 、 年 底 就 业 人 数 的 对 数值 、 地 区 生产 总 值 的 对 
数值 的 一 阶 差分 值 、 财 政 科 技 投 入 的 对 数值 的 一 阶 差分 值 是 不 存在 单位 根 的 。 变 量 地 区 生产 总 
值 的 对 数值 、 财 政 科技 投入 的 对 数值 是 一 阶 单 整 的 。 这 些 结论 将 会 在 协 整 检验 的 操作 命令 中 被 
用 到 。 

本 例 中 ， 因 为 仅 有 变量 地 区 生产 总 值 的 对 数值 、 财 政 科技 投入 的 对 数值 是 非 平稳 且 一 阶 
单 整 的 ， 所 以 只 研究 这 两 个 变量 之 间 的 长 期 均衡 关系 是 否 存在 。 迹 检验 的 操作 步骤 如 下 : 

加 进入 Stata 14.0， 打 开 相 关 数 据 文 件 ， 弹 出 主 界面 。 

贺 在 主 界面 的 “Command” 文 本 框 中 分 别 输入 如 下 命令 并 按键 盘 上 的 回 车 键 进行 确认 。 


。 varsoc lgdp lscientific: 本 命令 的 主要 目的 是 根据 信息 准则 确定 变量 的 滞后 阶 数 。 

。 vecrank lgdp lscientific,lags(4): 本 命令 的 主要 目的 是 在 确定 灌 后 阶 数 的 基础 上 ， 确 定 
协 整 秩 。 

。 vecrank lgdp lscientific,lags(1): 本 命令 的 主要 目的 同样 是 在 确定 灌 后 阶 数 的 基础 上 ， 
确定 协 整 秩 。 


加 设置 完毕 后 ， 等 待 输出 结果 。 


19.6.2 ”结果 分 析 


目前 国际 上 公认 的 比较 合理 的 信息 准则 有 很 多 种 ， 所 以 研究 者 在 选取 滞后 阶 数 时 要 适当 
加 入 自己 的 判断 。 在 确定 滞后 阶 数 后， 我 们 要 确定 协 整 秩 ， 协 整 秩 代表 着 协 整 关系 的 个 数 。 变 
量 之 间 往 往 会 存在 多 个 长 期 均衡 关系 ， 所 以 协 整 秩 并 不 必然 等 于 1。 在 确定 协 整 秩 后 ,我 们 就 
可 以 构建 相应 的 模型 ， 写 出 协 整 方程 了 。 

在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 19.45~ 图 19.47 所 示 的 分 析 结 果 。 


，Varsoc lgdp 1scientific 


Selection-order criteria 
Sample: 1998 - 2010 Nunber of obs = 13 


lag LL LR af p PPE AIC HQIC SBIC 


0 | -4.38065 .009155 .981638 .963773 1.06855 
1 39.2327 87.227 0.000 .000021* -5.11272 -5.16632 -4.85198* 
2 41.903 5.3405 0.254 .000028 -4.90815 -4.99748 -4.47357 
3 47.356 10.906 0.028 .000026 -5.13169 -5.25675 -4.52329 
4 


4 
4 
4 
52.3968 10.082* 4 0.039 .000033 -5.29182* -5.4526* -4.50958 


Endogenous: lgdp lscientific 
Exogenous: _cons 


图 19.45 协 整 检验 分 析 结 果 图 1 


图 19.45 给 出 了 根据 信息 准则 确定 的 变量 滞后 阶 数 分 析 结 果 。 最 左 列 的 lag 表示 的 是 滞后 
阶 数 ，LL、LR 两 列表 示 的 是 统计 量 ，df 表示 的 是 自由 度 ，p 值 表示 的 是 对 应 滞后 阶 数 下 模型 
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的 显著 性 ，FPE、AIC、HQIC、SBIC 代表 的 是 4 种 信息 准则 ， 其 中 值 越 小 越 好 ， 越 应 该 选用 ， 
这 一 点 也 可 以 通过 观察 “* ”号 来 验证 ， 带 “*” 号 说 明 在 本 信息 准则 下 的 最 优 滞后 阶 数 。 最 下 
面 两 行文 字 说 明 的 是 模型 中 的 外 生变 量 和 内 生变 量 ， 本 例 中 ， 外 生变 量 包 括 lgdp、lscientific 
(Endogenous: lgdp lscientific) ， 内 生变 量 包 括 常数 项 (Exogenous: _cons) 。 

综 上 所 述 ， 可 以 看 出 选取 滞后 阶 数 为 1 阶 或 者 4 阶 是 比较 合适 的 ， 下 面 我 们 分 别 来 判断 
一 下 两 种 滞后 阶 数 下 协 整 秩 的 具体 情况 。 

当 滞后 阶 数 为 4 时 ， 结 果 如 图 19.46 所 示 。 


. vecrank 1gdp lscientific,1lags(4) 
Johansen tests for cointegration 
Trend: constant Number of obs = 13 
Sample: 1998 - 2010 Lags = 
5 
max imum trace critical 
rank parms LL eigenvalue statistic value 

0 14 41.042331 22.7089 15.41 

1 17 52.381008 0.82525 0.0316* 3.76 

2 18 52.396801 0.00243 


图 19.46 协 整 检验 分 析 结 果 图 2 
图 19.46 展示 的 是 根据 前 面 确定 的 滞后 阶 数 确定 协 整 秩 的 结果 。 分 析 本 结果 最 直接 的 方式 
就 是 找到 带 “*” 号 的 迹 统计 量 (trace statistic) ， 本 例 中 该 值 为 0.0316， 对 应 的 协 整 秩 为 1， 
这 说 明 本 例 中 地 区 生产 总 值 的 对 数值 、 财 政 科技 投入 的 对 数值 两 个 变量 存在 一 个 协 整 关系 。 
当 滞后 阶 数 为 1 时 ， 结 果 如 图 19.47 所 示 。 
，Yecrank lgdp lsoientific,lags(1) 


Trend: constant Number of obs = 
Sample: 1995 - 2010 Lags = 


5s 


trace critical 

LL eigenvalue statistic value 

34.306019 25.7607 15.41 

46.951119 0.79416 0.4705* 3.76 
47.186348 0.02898 


图 19.47 协 整 检验 分 析 结 果 图 3 


图 19.47 展示 的 是 根据 前 面 确定 的 滞后 阶 数 确定 协 整 秩 的 结果 。 分 析 本 结果 最 直接 的 
方式 就 是 找到 带 “* ”号 的 迹 统 计量 (trace statistic) ， 本 例 中 该 值 为 0.4705， 对 应 的 协 整 
秩 为 1， 这 说 明 本 例 中 地 区 生产 总 值 的 对 数值 、 财 政 科技 投入 的 对 数值 两 个 变量 存在 一 个 


至 此 ， 协 整 检验 已 毕 。 我 们 发 现 两 种 滞后 阶 数 得 到 的 结论 是 一 致 的 。 对 于 迹 检验 而 言 ， 
同样 可 以 构建 出 相应 的 模型 来 描述 这 种 长 期 协 整 关系 。 这 一 点 将 在 后 续 的 “建立 模型 ”一 节 中 
进行 详细 说 明 。 
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19.7” 格 兰 杰 因果 关系 检验 


协 整 关系 表示 的 仅仅 是 变量 之 间 的 某 种 长 期 联动 关系 ， 与 因果 关系 是 毫 无 关联 的 ， 例 如 
本 例 中 虽然 地 区 生产 总 值 的 对 数值 、 财 政 科技 投入 的 对 数值 两 个 变量 之 间 存在 协 整 关系 , 但 是 
究竟 是 地 区 生产 总 值 的 对 数值 影响 了 财政 科技 投入 的 对 数值 ,还 是 财政 科技 投入 的 对 数值 影响 
了 地 区 生产 总 值 的 对 数值 , 亦 或 是 它们 相互 影响 ? 如 果 要 探究 变量 之 间 的 因果 关系 , 就 需要 用 
到 格 兰 杰 因果 关系 检验 。 


19.7.1 Stata 分 析 过 程 


在 前 面 几 节 中 ， 通 过 单位 根 检验 发 现 地 区 生产 总 值 的 对 数值 、 财 政 科技 投入 的 对 数值 两 
个 变量 是 一 阶 单 整 的 , 所 以 我 们 在 进行 格 兰 杰 因果 关系 检验 时 选择 的 变量 是 : 地 区 生产 总 值 的 
对 数值 、 财 政 科 技 投入 的 对 数值 。 

格 兰 杰 因 果 关 系 检 验 的 操作 步骤 如 下 : 


四 进入 Stata 14.0， 打 开 相 关 数据 文件 ， 弹 出 主 界面 。 
在 主 界面 的 “Command” 文 本 框 中 分 别 输入 如 下 命令 并 按键 盘 上 的 回 车 键 进行 确认 。 


。 reg lgdp llgdp l.lscientific: 本 命令 旨 在 以 地 区 生产 总 值 的 对 数值 为 因 变 量 ， 以 地 区 
生产 总 值 的 对 数值 的 灌 后 一 期 值 、 财 政 科技 投入 的 对 数值 的 灌 后 一 期 值 为 自 变 量 , 进 
行 最 小 二 来 回归 分 析 。 

e@ test l.lscientific: 本 命令 旨 在 检验 财政 科技 投入 的 对 数值 的 滞后 一 期 值 这 一 变量 的 系 
数 是 否 显著 。 

ereg lscientific 1.lscientific 1.lgdp: 本 命令 旨 在 以 财政 科技 投入 的 对 数值 为 因 变 量 ， 以 
财政 科技 投入 的 对 数值 的 灌 后 一 期 值 、 地 区 生产 总 值 的 对 数值 的 灌 后 一 期 值 为 自 变 
量 ， 进 行 最 小 二 乘 回归 分 析 。 

。 test1.lgdp: 本 命令 旨 在 检验 地 区 生产 总 值 的 对 数值 的 滞后 一 期 值 这 一 变量 的 系数 是 否 
显著 。 

加 设置 完毕 后 ， 等 待 输出 结果 。 


19.7.2 结果 分 析 


在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 19.48~ 图 19.51 所 示 的 分 析 结 果 。 

图 19.48 和 图 19.49 展示 的 是 财政 科技 投入 是 否 是 地 区 生产 总 值 的 格 兰 杰 因 的 检验 结果 。 
通过 观察 分 析 结果 可 以 看 出 Llscientific 的 系数 值 是 非常 显著 的 。 具 体 体现 在 其 t+ 值 、F 值 以 及 
P 值 上 ,关于 这 一 结果 的 详细 解读 方法 前 面 章节 中 多 有 提 及 ， 限 于 篇 幅 此 处 不 再 袭 述 ， 所 以 我 
们 可 以 比较 有 把 握 地 得 出 结论 ， 财 政 科 技 投入 是 地 区 生产 总 值 的 格 兰 杰 因 。 
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-reg lgdp 1.1gdp 1.1scientific 


Source ss 上 Number of obs = 16 
F( 2, 13) = 5284.71 
Hodel | 6.39016733 2 3.19508366 Prab > 了 = 0.0000 
Residual ,00785967 13 .00060459 R-squared = 0.9988 
Adi R-squared = 0.9986 
Toral 6.398027 15 .426535133 Root NSE = .02459 
lgdp Coef. Std. Err. t p>lel [95% Conf. Interval] 
lgdp 
L1. 1.119264 .0346644 32.29 0.000 1.044376 1.194152 
lscientific 
L1. | -.0887465 .0218954 -4.05 0.001 -~.1360485 -.0414444 
cons 145054 .0734631 1.97 0.070  -.0136534 .3037614 


图 19.48 格 兰 杰 因果 关系 检验 分 析 结 果 图 1 


.test 1.1scientific 


(1) L.lscientific ~ 0 


Fl 219) = “18,63 
Prob > 了 =- 0.0014 


图 19.49 格 兰 杰 因果 关系 检验 分 析 结果 图 2 


图 19.50 和 图 19.51 展示 的 是 地 区 生产 总 值 是 否 是 财政 科技 投入 的 格 兰 杰 因 的 检验 结果 。 
通过 观察 分 析 结 果 可 以 看 出 Llgdp 的 系数 值 是 非常 显著 的 。 具 体 体现 在 其 t 值 、F 值 以 及 P 值 
上 ， 关 于 这 一 结果 的 详细 解读 方法 前 面 章 节 中 多 有 提 及 ， 限 于 篇 幅 此 处 不 再 獒 述 ， 综 上 记述 ， 
我 们 可 以 比较 有 把 握 地 认为 地 区 生产 总 值 与 财政 科技 投入 互 为 格 兰 杰 因 。 


，reg lscientifio 1.1soientific 1.1gdp 
Source ss dz ns Number of obs = 16 
F( 2, 13) = 241.05 
Model | 12.8919269 2 6.44596344 prob > 了 = 0.0000 
Residual | .347635858 13 .02674122 R-squared = 0.9737 
adj R-squared = 0.9697 
Toral | 13.2395627 15 .882637516 Root HSE = .16353 
lacientific Coef. Std. Err. < Pp>ltl [95% Conf. Interval] 
lscientific 
Li. .5568393 .145617 3.82 0.002 .2422528 .8714257 
lgdp 
L1 .5304502 。 .2305388 2.30 0.039 .0324013 。 1.028499 
_cons .6854741 .488573 1.40 0.184 。 -.3700237 -1.740972 


图 19.50 格 兰 杰 因果 关系 检验 分 析 结 果 图 3 


. test 1.1gdp 


(1) Llgp=0 


Ft ae 312e 9 
Prob > F = 0.0386 


19.51 格 兰 杰 因 果 关 系 检验 分 析 结果 图 4 
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19.8 建立 模型 
本 节 将 执行 最 后 的 步骤 ， 即 根据 前 面 得 出 的 一 系列 结论 建立 相应 的 数据 模型 。 建 立 模型 
的 步骤 如 下 。 
1. 建立 模型 方程 
根据 前 面 几 节 的 分 析 ， 构 建 如 下 所 示 的 模型 方程 ; 
d.lgdp = olinvest+ Bllabor + yd.lscientific + InAt + 


其 中 ，gdp、invest、labor、scientific 分 别 表示 地 区 生产 总 值 、 固 定 资产 投资 、 年 底 就 业 人 
数 和 财政 科技 投入 。a、B 和 Y 分 别 表示 固定 资产 投资 、 年 底 就 业 人 数 和 财政 科技 投入 的 产 出 
弹性 ，lnAt 为 常数 项 ， 而 上 是 随机 误差 项 。 


2. 估计 整体 方程 
在 主 界面 的 “Command” 文 本 框 中 输入 命令 : 


reg d.lgdp linvest llabor d.lscientific 


并 按键 盘 上 的 回 车 键 进行 确认 ， 即 可 出 现 如 图 19.52 所 示 的 模型 整体 方程 估计 结果 。 


,reg dlqdp linvest llabor d.lscientific 
Source ss 3 ns Nuber of cba = 16 
Pt 7 a 
Nodel | .014292852 3 .004764284 Prob > 下 =- 0.0009 
Besidual | ,005136272 。 12 .000428023 R-savared = 0.7356 
adj F-squared = 0.5696 
Tocal | ,019429123 15 .001295275 Root NSE = .02069 
D.lgdp Coet. Std. Err. | [S54 Conf. Interval] 
linvest 1716194 ,0349844 4.91 0.000 .095395 .2476437 
llabor | -4.084321 .7993328 -5.11 0.000 。 -5.825917 -2.342725 

lscientitic 

D1. | -.0032197 .0291349 -0.11 0.914  -.0665992 .0602599 
cons | 23.03791 4.477924 5.14 0.000 13.28136 。 32.79447 


图 19.52 建立 模型 分 析 结 果 图 1 


从 上 述 分 析 结 果 中 可 以 看 到 共有 47 个 样本 参与 了 分 析 。 模 型 的 F 值 (3, 12) = 11.13, 了 值 
(Prob > F)= 0.0009, 说 明 模型 整体 上 还 是 可 以 接受 的 。 模 型 的 可 决 系数 (R-squared ) 为 0.7356， 
模型 修正 的 可 决 系数 (Adj R-squared) 为 0.6696， 说 明 模 型 解释 能 力 还 是 比较 不 错 的 。 
模型 的 回归 方程 是 : 


d.lgdp =0.1716194* linvest -4.084321 * llabor -0.0032197*d1.lscientific + 23.03791 


变量 linvest 的 系数 标准 误 是 0.0349844，t 值 为 4.91，P 值 为 0.000， 系 数 是 非常 显著 的 ， 
95% 的 置信 区 间 为 [0.095395，0.2478437]。 变 量 llabor 的 系数 标准 误 是 0.7993328, t 值 为 -5.11， 
P 值 为 0.000, 系数 也 是 非常 显著 的 ,95% 的 置信 区 间 为 [-5.825917 , -2.342725]。 变 量 dl.lscientific 
的 系数 标准 误 是 0.0291349，t 值 为 -0.11，P 值 为 0.914， 系 数 是 非常 不 显著 的 ，95% 的 置信 区 


间 为 [-0.0666992, 0.0602599]。 常 数 项 的 系数 标准 误 是 4.477924, t 值 为 5.14, P 值 为 0.000， 系 
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数 也 是 非常 显著 的 ，95% 的 置信 区 间 为 [13.28136 , 32.79447] 。 

需要 特别 解释 的 是 济南 市 的 经 济 持续 增长 是 一 种 事实 , 而 且 根 据 经 济 增长 理论 , 资本 ( 固 
定 资产 投资 、 劳 动力 年底 就 业 人 数 ) 、 科 技 投入 (财政 科技 投入 ) 对 经 济 增长 都 是 有 促进 
作用 的 ， 所 以 dlgdp 反映 的 是 经 济 增长 的 差额 ,或 者 说 经 济 增长 的 速度 。 从 该 模型 方程 中 可 
以 得 到 很 多 信息 : 


。 首先 ,固定 资产 投资 的 系数 为 正 而 且 非 常 显著 ,这 说 明 济南 市 的 固定 资产 投资 对 地 区 
生产 总 值 的 变化 是 具有 显著 的 正 向 作用 的 , 在 一 定 程度 上 说 明了 栖 放 的 固定 资产 投资 
仍 是 济南 市 的 重要 经 济 增长 动力 ， 固 定投 资 越 多 ， 经 济 增长 越 快 。 

。 其 次 ,年底 就 业 人 数 的 系数 为 负 而 且 非 常 显著 ， 这 说 明 济南 市 的 年 底 就 业 人 元 对 地 区 生 
产 总 值 的 变化 是 具有 显著 的 负 向 作用 的 ， 在 一 定 程度 上 说 明了 济南 市 的 就 业 市 场 已 经 饱 
和 ， 过 多 的 就 业 人 口 反而 会 降低 经 济 运行 效率 ， 减 缓 经 济 增长 的 速度 。 而 科技 投入 对 地 
区 生产 总 值 的 影响 变化 关系 在 短期 内 是 不 够 显著 的 ， 说 明 济南 市 对 科技 的 投入 在 短期 内 
的 效果 不 明显 ， 或 者 说 科技 投入 不 能 立竿见影 ， 并 没有 成 为 济南 市 经 济 发 展 的 近期 动力 。 

在 主 界面 的 “Command” 文 本 框 中 输入 命令 : 


vec lgdp lscientific,lags(1) rank(1) 


并 按键 盘 上 的 回 车 键 进行 确认 , 即 可 出 现 如 图 19.53 所 示 的 地 区 生产 总 值 与 财政 科技 投入 
的 长 期 均衡 关系 模型 方程 估计 结果 。 


Na. of obs = 16 
AM1c = .2389 
ac -5.231527 
3 = -3.002456 


peE -aq biz Pon 


.023913 9.9781 524,8607 9.0000 
.159261 0.7808 49.86935 9.0000 


【989 Cont. Interval 


.0602446 .15434 


na0226 


.3025861 .9293139 


-156865648 。 .1328477 


84353 。 一 .7137762 


图 19.53 ”建立 模型 分 析 结 果 图 2 
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观察 分 析 结 果 得 到 的 协 整 方程 为 : 

e=lgdp-0.7791581*lscientific+0.7267954 

该 方程 反映 的 是 地 区 生产 总 值 与 财政 科技 投入 的 长 期 均衡 关系 。 令 e=0， 将 模型 进行 变形 
可 得 : 

lgdp=0.7791581*lscientific-0.7267954 

这 个 方程 说 明 的 是 济南 市 科技 投入 对 地 方 生产 总 值 的 长 期 作用 是 正 向 的 ， 而 且 非 常 显 著 
(观察 到 lscientific 变量 系数 的 显著 性 P 值 为 0.000) ， 效 果 非 常 明显 ， 能 达到 近 80%。 

根据 格 兰 杰 因果 关系 检验 的 结果 ， 地 区 生产 总 值 与 财政 科技 投入 的 长 期 均衡 关系 模型 方 
程 为 : 

d.lgdp=0.1072967*].e+0.1028637 

其 中 了 

e=lgdp-0.7791581*lscientific+0.7267954 

d.lgdp=0.1072967* (l.lgdp-0.7791581*l.lscientific+0.7267954) +0.1028637 


llscientific 前 面 的 系数 为 负 值 ， 说 明 上 期 科技 投入 偏 多 时 , 会 引起 本 期 地 区 生产 总 值 的 减 
少 。 这 在 一 定 程度 上 验证 了 前 面 得 出 的 结论 , 科技 投入 虽然 从 长 期 来 看 对 济南 市 经 济 增 长 贡献 
将 会 非常 大 ， 但 在 现 阶 段 达 不 到 预期 效果 ， 所 以 , 综 上 所 述 ,我 们 可 以 比较 有 把 握 地 说 ,济南 
市 目前 的 经 济 增长 还 是 比较 粗放 的 ， 距 离 集 约 型 增长 模式 还 有 一 段 比 较 长 的 路 要 走 。 


19.9 ”研究 结论 


经 过 前 面 的 研究 之 后 ， 可 以 比较 有 把 握 地 得 出 以 下 研究 结论 : 

。 变量 地 区 生产 总 值 、 固 定 资产 投资 、 年 底 就 业 人 数 和 财政 科技 投入 的 值 以 及 其 对 数 标 
准 化 的 值 都 是 有 明显 、 稳 定 的 向 上 增长 趋势 的 ， 而 变量 地 区 生产 总 值 、 固 定 资产 投资 、 
年 底 就 业 人 数 和 财政 科技 投入 的 对 数值 的 一 阶 差分 值 是 没有 明显 、 稳 定 的 时 间 趋 势 的 。 

。 ”地 区 生产 总 值 、 固 定 资产 投资 、 年 底 就 业 人 数 和 财政 科技 投入 等 变量 之 间 的 相关 系数 
以 及 其 对 数值 之 间 的 相关 系数 都 非常 高 ， 而 且 相 关 关 系 非常 显著 。 

ee ”变量 地 区 生产 总 值 的 对 数值 、 财 政 科技 投入 的 对 数值 是 存在 单位 根 的 ， 变 量 固 定 资产 
投资 的 对 数值 、 年 底 就 业 人 数 的 对 数值 、 地 区 生产 总 值 的 对 数值 的 一 阶 差分 值 、 财 政 
科技 投入 的 对 数值 的 一 阶 差分 值 是 不 存在 单位 根 的 。 

e。 ”地 区 生产 总 值 的 对 数值 、 财 政 科技 投入 的 对 数值 两 个 变量 存在 一 个 协 整 关系 。 

e。 地 区 生产 总 值 与 财政 科技 投入 互 为 格 兰 杰 因 。 

。 济南 市 的 固定 资产 投资 对 地 区 生产 总 值 的 变化 是 具有 显著 的 正 向 作用 的 , 在 一 定 程度 
上 说 明了 粗放 的 固定 资产 投资 仍 是 济南 市 的 重要 经 济 增长 动力 ， 固 定投 资 越 多 , 经济 
增长 越 快 。 济 南 市 的 年 底 就 业 人 数 对 地 区 生产 总 值 的 变化 是 具有 显著 的 负 向 作用 的 ， 
济南 市 的 就 业 市 场 已 经 饱和 ， 过 多 的 就 业 人 口 反 而 会 降低 经 济 运行 效率 ,减缓 经 济 增 
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第 19 章 state 在 经 济 增长 分 析 中 的 应 用 


\\\\ 


长 的 速度 。 

。 ”济南 市 科技 投入 对 地 方 生产 总 值 的 长 期 作用 是 正 向 的 ,而 且 非 常 显著 , 能 达到 近 80%。 
科技 投入 虽然 从 长 期 来 看 对 济南 市 经 济 增长 贡献 将 会 非常 大 , 但 在 现 阶段 科技 投入 对 
地 区 生产 总 值 的 影响 变化 关系 不 够 显著 ,或 者 说 科技 投入 并 没有 成 为 济南 市 经 济 发 展 
的 近期 动力 。 济 南 市 目前 的 经 济 增长 还 是 比较 粗放 的 ， 距 离 集约 型 增长 模式 还 有 一 段 
比较 长 的 路 要 走 。 


19.10 ”本 章 习 题 


表 19.2 给 出 了 某 企 业经 营利 润 、 固 定 资产 投资 、 员 工薪 酬 和 科技 研发 投入 的 有 关 数 据 ， 试 


使 用 描述 性 分 析 、 时 间 序 列 趋势 图 分 析 、 相 关 性 检验 、 单 位 根 检验 、 协 整 检 验 、 格 兰 杰 因果 关 
系 检验 等 方法 研究 数据 特征 并 对 变量 间 的 关系 进行 分 析 , 最 后 建立 相应 的 方程 模型 描述 变量 之 
间 的 联动 关系 。 
表 19.2 习题 19 数据 
利润 /万 元 固定 资产 投资 /万 元 _| 员工 薪酬 /万 元 科技 研发 投入 /万 元 

97.356 40.432 19.045 6 
149.970 8 43.118 6 30.683 1 
200.564 44.1959 48.332 2 
241.049 2 44.8742 81.435 9 
293.5177 45.432 8 102.237 1 
359.6586 45.8185 168.245 
406.9135 46.2042 173.2591 
457.7195 46.5633 248.1647 

2004 1597.103 9 538.2377 46.909 1 268.4472 
671.5037 47.2549 194.047 
866.229 47.6805 269.3383 
1 139.81 47.88 297.6939 
1352.3041 48.119 4 366.242 1 

3 325.1862 1 531.761 48.4519 538.862 8 

2010 3 999.004 1 1 882.388 9 48.8642 599.3246 

2011 4 .443.4103 2 201.642 1 49.5159 699.9125 

2012 5 201.004 9 2 643.295 2 49.702 1 826.4354 
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第 20 章 stata 在 原油 与 黄金 价格 联动 关系 
研究 中 的 应 用 


黄金 和 原油 同属 于 大 宗 商 品 ， 都 是 衡量 宏观 经 济 状况 的 重要 指标 ， 在 人 类 社会 发 展 的 过 
程 中 都 扮演 着 重要 的 角色 。 黄金 是 公认 的 硬 通货 ,而 原油 自 工业 革命 以 来 , 成 为 现代 社会 的 血 
液 。 黄金 和 原油 的 价格 问题 也 一 直 深 受 社会 各 界 的 密切 关注 , 成 为 专家 学 者 研究 分 析 的 热点 课 
题 之 一 。 无 数 国内 外 学 者 的 研究 发 现 黄金 价格 和 原油 价格 之 间 是 存在 一 定 联动 关系 的 , 它们 的 
价格 变化 存在 着 一 定 的 内 在 规律 。 当 然 学 者 们 得 出 的 研究 结论 并 不 是 完全 一 致 的 , 有 的 学 者 认 
为 黄金 和 原油 存在 着 一 定 的 正 向 变动 关系 ， 当 国际 原油 价格 上 扬 时 ,黄金 价格 常常 也 随 之 走 
高 ; 反之 ， 当 油价 下 跌 时 ， 金 价 亦 随 之 踏 室 。 也 有 学 者 持 有 恰好 相反 的 意见 ， 他 们 认为 原油 和 
黄金 在 保值 增值 方面 是 一 种 逆向 变动 关系 , 油价 和 金价 的 变动 关系 是 相反 的 。 还 有 的 学 者 分 时 
期 进行 了 研究 , 认为 短期 和 长 期 结论 不 同 ,近代 和 现代 结论 不 同 。 虽然 学 者 们 的 研究 结论 存在 
种 种 争议 , 但 他 们 的 一 个 共识 是 金价 和 油价 二 者 的 变动 之 间 存 在 着 千 丝 万 缕 的 关系 。 本 章 我 们 
就 用 Stata 14.0 分 析 研 究 一 下 原油 和 黄金 的 价格 联动 关系 。 


20.1 数据 来 源 与 研究 思路 


本 章 中 所 用 的 数据 包括 WTI 自 2002 年 1 月 1 日 至 2006 年 1 月 1 日 ,每 月 1 日 的 原油 价 
格 数据 共 49 组 , LONDON GOLD FIX 自 2002 年 1 月 至 2006 年 1 月 的 每 月 黄金 价格 均值 数据 
共 49 组 。 其 中 原油 价格 数据 来 源 于 http: //wwwlforecastslorg /data / data/OILPRICElhtm， 黄 
金价 格 数据 来 源 于 http: / /wwwlforecastslorg / data / data /GOLD1htm。 数 据 的 Excel 形式 如 表 
20.1 所 示 。 


表 20.1 案例 20 数据 


[1] 改编 自 《石油 与 黄金 产业 价格 联动 关系 研究 》 〈 由 张 莹 、 悄 莉 、 陈 宏 民 著 ) ， 以 及 《财经 问题 研究 》 第 7 期 总 第 284 期 ) 。 


month goldf 
10 316.56 
11 319.15 
12 332.43 
13 356.86 
14 359.32 
15 340.55 
16 328.58 
i 355.68 
18 356.53 
19 351 
20 359.77 
21 378.95 
22 378.92 
23 389.91 
24 407.59 
25 413.99 
本 数据 为 时 间 序 列 数据 ， 研 究 思路 是 首先 对 数据 进行 描述 性 分 析 ， 并 绘制 变量 的 时 间 序 
列 趋势 图 ， 简明 扼要 地 分 析 一 下 数据 特征 ， 进 行 相关 性 检验 ,探索 变量 之 间 的 相关 关系 ,然后 
对 数据 中 两 个 时 间 序 列 采 用 多 种 方法 进行 单位 根 检验 ， 综 合 分 析 其 平稳 性 ， 再 使 用 EG-ADF 


协 整 检验 的 方式 对 数据 进行 协 整 检验 , 综合 分 析 其 长 期 均衡 关系 , 对 两 个 变量 进行 格 兰 杰 因 果 
关系 检验 , 探讨 变量 之 间 的 格 兰 杰 因果 关系 , 最 后 建立 相应 的 误差 修正 模型 , 并 提出 研究 结论 。 


20.2 ”描述 性 分 析 


S raveocharo. 


柄 下 载 资源 :\sample\chap20\ 案 例 20.dta 


本 案例 的 数据 变量 都 是 定 距 变量 ， 通 过 进行 定 距 变 量 的 基本 描述 性 统计 可 以 得 到 数据 的 
概要 统计 指标 ,包括 平均 值 、 最 大 值 、 最 小 值 、 标 准 差 、 百 分 位 数 、 中 位 数 、 偏 度 系 数 和 峰 度 
系数 等 。 我们 通过 获得 这 些 指标 , 可 以 从 整体 上 对 拟 分 析 的 数据 进行 宏观 把 握 , 为 后 续 进行 更 
深入 的 数据 分 析 做 好 必要 准备 。 


20.2.1 Stata 分 析 过 程 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 3 个 变量 ， 分 别 为 月 
份 、 原 油价 格 和 黄金 价格 。 我 们 把 月 份 变量 设 定 为 month， 把 原油 价格 变量 设 定 为 wtioil， 把 
黄金 价格 变量 设 定 为 lgoldf， 变 量 类 型 及 长 度 采取 系统 默认 方式 ， 然 后 录入 相关 数据 。 相 关 操 
作 在 第 1 章 中 已 有 详细 讲述 。 录 入 完成 后 数据 如 图 20.1 所 示 。 
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Vars:3 Order: Dataset Obs:49 Filter:Off Mode:Edit CAP NUM 4 
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20.1 案例 20 数 据 
先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 步 又 如 下 : 


加 进入 Stata 14.0， 打 开 相 关 数 据 文件 ， 弹 出 主 界面 。 
在 主 界面 的 “Command” 文 本 框 中 输入 命令 : 


summarize lgoldf wtioil,detail 


园 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


20.2.2 ”结果 分 析 


在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 20.2 所 示 的 分 析 结 果 。 在 分 析 结 果 中 ， 可 以 
得 到 如 下 很 多 信息 。 

1. 百 分 位 数 (Percentiles) 

可 以 看 出 变量 lgoldf 的 第 1 个 四 分 位 数 (25%) 是 332.43, 第 2 个 四 分 位 数 (50%) 是 391.99， 
第 3 个 四 分 位 数 (75%) 是 424.15; 变量 wtioil 的 第 1 个 四 分 位 数 (25%) 是 28.85, 第 2 个 四 
分 位 数 (50%) 是 34.74， 第 3 个 四 分 位 数 (75% ) 是 48.46。 
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20.2 分 析 结 果 图 


2. 4 个 最 小 值 (Smallest) 

变量 lgoldf 最 小 的 4 个 数据 值 分 别 是 281.65、294.05、295.5、302.68。 
变量 wtioil 最 小 的 4 个 数据 值 分 别 是 19.67、20.74、24.42、25.52。 

3. 4 个 最 大 值 (Largest) 

变量 lgoldf 最 大 的 4 个 数据 值 分 别 是 469.9、476.67、510.1、549.86。 
变量 wtioil 最 大 的 4 个 数据 值 分 别 是 62.37、64.97、65.51、65.57。 

4. 平均 值 (Mean ) 和 标准 差 (Std. Dev) 

变量 lgoldf 的 平均 值 为 385.1843 ， 标 准 差 是 59.69529。 

变量 wtioil 的 平均 值 为 39.33082， 标 准 差 是 13.02875。 

5. 偏 度 (Skewness) 和 峰 度 (Kurtosis) 


变量 lgoldf 的 偏 度 为 0.3070091， 为 正 偏 度 但 不 大 。 
变量 wtioil 的 偏 度 为 0.6038287， 为 正 偏 度 但 不 大 。 
变量 lgoldf 的 峰 度 为 2.804495， 有 一 个 比 正 态 分 布 更 短 的 尾巴 。 
变量 wtioil 的 峰 度 为 2.146637， 有 一 个 比 正 态 分 布 更 短 的 尾巴 。 


20.3 ”时 间 序 列 趋势 图 


过 绘制 时 间 序 列 趋势 图 操作 可 以 迅速 地 看 出 数据 的 变化 特征 ， 为 后 续 更 加 精确 地 判断 


或 者 选择 合适 的 模型 做 好 必要 准备 。 


20.3.1 Stata 分 析 过 程 


时 间 序 列 趋 势 图 分 析 的 步骤 如 下 : 
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NAN 

NN WN 
\ \ 析 与 行业 应 用 案例 详解 (第 2 版 ) 
\ \ 和 AAAAAAAA AAAAAAAAAAA \\\ AAAAAAAA 


进入 Stata 14.0， 打 开 相 关 数 据 文件 ， 弹 出 主 界面 。 
贺 在 主 界面 的 “Command” 文 本 框 中 输入 如 下 命令 : 


tsset month 

twoway(line lgoldf month) 
twoway(line wtioil month) 
gen lnlgoldf=log(lgoldf) 

gen Inwtioil=log(wtioil) 
twoway(line Inlgoldf month) 
twoway(line Inwtioil month) 
twoway(line d.lnlgoldf month) 


twoway(line d.lnwtioil month) 


加 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


20.3.2 ”结果 分 析 


在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 20.3~ 图 20.11 所 示 的 分 析 结果 。 
图 20.3 显示 的 是 我 们 把 月 份 作为 日 期 变量 对 数据 进行 时 间 定 义 的 结果 。 


tsset month 
time variable: month, 1 to 49 


delta: 1 unit 


图 20.3 分 析 结 果 图 1 


从 上 述 分 析 结 果 中 可 以 看 到 时 间 变 量 是 月 份 (month) ， 区 间 范 围 是 1-49， 间 距 为 1。 
图 20.4 显示 的 是 变量 黄金 价格 随时 间 的 变动 趋势 。 
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20.4 分析 结果 图 2 


从 上 述 分 析 结 果 中 可 以 看 到 变量 黄金 价格 具有 明显 、 稳 定 的 长 期 增长 趋势 。 
图 20.5 显示 的 是 变量 原油 价格 随时 间 的 变动 趋势 。 
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图 20.5 分 析 结果 图 3 


从 上 述 分 析 结果 中 可 以 看 到 变量 原油 价格 具有 明显 、 稳 定 的 长 期 增长 趋势 。 

选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 20.6 所 示 的 Inlgoldf 数据 。lnlgoldf 数据 是 对 数据 lgoldf 进行 对 数 变 换 处 理 的 结果 ， 这 
步 处 理 的 意义 是 消除 数据 异 方差 的 影响 ， 使 数据 更 适合 深入 分 析 ， 并 且 使 数据 更 具 实际 意义 。 
对 数 变换 引出 了 弹性 的 概念 , 在 没有 进行 对 数 变换 之 前 , 变量 之 间 的 联动 关系 表现 在 自 变量 的 
变动 引起 因 变 量变 动 的 程度 , 在 进行 对 数 变换 之 后 , 变量 的 联动 关系 就 表现 为 自 变 量变 动 的 百 
分 比 引 起 因 变 量变 动 的 百分比 的 程度 。 
口 ouetdiordu- E0000 天生 [EL | 


File Edit View Data Tools 


苞 回 现 忆 上 


r variables here 
Label 


器 Inlgoldf 
Winwrioil 


| 区 Variables | Snapshois| 
eseer 和 


Properties 
日 Variables 


Name Inlgoldf 
Label 引 


Type float 
Format %9.0g 
Value label 

~ |@Notes 

日 Data 


FE Vars 5 Order Dataset Obs:49 ”Fiker Off Mode:Edit A? NUM J 
图 20.6 查看 数据 
选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 


到 如 图 20.7 所 示 的 Inwtioil 数据 。Inwtioil 数据 是 对 数据 wtioil 进行 对 数 变 换 处 理 的 结果 。 
图 20.8 显示 的 是 变量 黄金 价格 的 对 数值 随时 间 的 变动 趋势 。 
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图 20.7 查看 数据 图 20.8 分 析 结 果 图 4 


从 上 述 分 析 结 果 中 可 以 看 到 变量 黄金 价格 的 对 数值 具有 明显 、 稳 定 的 向 上 增长 趋势 。 

图 20.9 显示 的 是 变量 原油 价格 的 对 数值 随时 间 的 变动 趋势 ， 从 分 析 结 果 中 可 以 看 到 原油 
价格 的 对 数值 具有 上 明显、 稳定 的 向 上 增长 趋势 。 

图 20.10 显示 的 是 变量 黄金 价格 的 对 数值 的 一 阶 差分 值 随时 间 的 变动 趋势 。 


| 
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图 20.9 分 析 结 果 图 5 20.10 ”分 析 结 果 图 6 


从 上 述 分 析 结 果 中 可 以 看 到 变量 黄金 价格 的 对 数值 的 一 阶 差分 值 没 有 明显 、 稳 定 的 长 期 
变动 趋势 。 

图 20.11 显示 的 是 变量 原油 价格 的 对 数值 的 一 阶 差分 值 随时 间 的 变动 趋势 , 从 分 析 结 果 中 
可 以 看 到 变量 原油 价格 的 对 数值 的 一 阶 差分 值 没有 明显 、 稳 定 的 长 期 变动 趋势 。 
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图 20.11 分 析 结果 图 7 
综 上 所 述 ， 我 们 通过 绘制 时 间 序 列 趋势 图 发 现 变量 黄金 价格 的 对 数值 的 一 阶 差分 值 、 原 
油价 格 的 对 数值 的 一 阶 差分 值 是 没有 时 间 趋 势 的 , 而 变量 黄金 价格 、 原 油价 格 、 黄 金价 格 的 对 
数值 、 原 油价 格 的 对 数值 是 有 明显 、 稳 定 的 向 上 增长 趋势 的 。 这 些 结论 将 会 在 后 续 的 操作 命令 
中 被 用 到 。 


20.4 ”相关 性 分 析 


相关 分 析 是 不 考虑 变量 之 间 的 因果 关系 而 只 研究 分 析 变 量 之 间 的 相关 关系 的 一 种 统计 分 
析 方 法 , 通过 该 步 操作 我 们 可 以 判断 出 变量 之 间 的 相关 性 ， 从 而 考虑 是 否 有 必要 进行 后 续 分 析 
或 者 增加 替换 新 的 变量 等 。 


20.4.1 ”Stata 分 析 过 程 


相关 性 分 析 的 步骤 如 下 : 


进入 Stata 14.0， 打 开 相 关 数据 文件 ， 弹 出 主 界面 。 
加 在 主 界面 的 “Command” 文 本 框 中 输入 命令 : 


correlate month lgoldf wtioil,covariance 
correlate month lnlgoldf Inwtioil,covariance 
correlate month lgoldf wtioil 

correlate month lnlgoldf lnwtioil 

pwcorr month lgoldf wtioil,sidak sig star(99) 
pwcorr month lnlgoldf Inwtioil,sidak sig star(99) 


国 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


20.4.2 ”结果 分 析 


在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 20.12~ 图 20.17 所 示 的 分 析 结 果 。 
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图 20.12 展示 的 是 变量 黄金 价格 与 原油 价格 的 方差 - 协 方差 矩阵 。 


，correlate month lgoldf wtioil,covariance 
(obs=49) 


| month lgoldf wtioil 


month | 204.167 
lgoldf | 815.722 3563.53 
weioil | 175.321 695.264 169.748 


图 20.12 分 析 结 果 图 1 


从 上 述 分 析 结 果 中 可 以 看 到 月 份 的 方差 是 204.167， 黄 金价 格 的 方差 是 3563.53， 石 油价 
格 的 方差 是 169.748， 月 份 与 黄金 价格 的 协 方差 是 815.722， 月 份 与 石油 价格 的 协 方差 是 
175.321， 黄 金价 格 与 石油 价格 之 间 的 相关 系数 是 695.264。 可 以 发 现 变量 之 间 的 方差 差别 是 非 
常 大 的 ， 我 们 对 数据 进行 对 数 变换 处 理 是 非常 有 必要 ， 也 是 非常 有 意义 的 。 

图 20.13 展示 的 是 变量 黄金 价格 的 对 数值 与 原油 价格 的 对 数值 的 方差 - 协 方差 矩阵 。 


，correlate month lnlgoldf lnwtioil,covariance 
(obs=49) 


| month lnlgoldf lnvtioil 


monch | 204.167 
lnlgoldf | 2.13546 .024054 
lnwrioil | 4.43194 .045727 .104746 


图 20.13 分 析 结 果 图 2 


从 上 述 分 析 结 果 中 可 以 看 到 月 份 的 方差 是 204.167， 黄 金价 格 对 数值 的 方差 是 0.024054， 
石油 价格 对 数值 的 方差 是 0.104746， 月 份 与 黄金 价格 对 数值 的 协 方差 是 2.13546， 月 份 与 石油 
价格 对 数值 的 协 方差 是 4.43194， 黄 金价 格 对 数值 与 石油 价格 对 数值 之 间 的 相关 系数 是 
0.045727。 可 以 发 现 对 变量 进行 对 数 变 换 处 理 后 ， 变 量 的 方差 差距 减少 了 很 多 ， 对 数 变换 处 理 
起 到 了 应 有 的 效果 。 

图 20.14 展示 的 是 变量 黄金 价格 与 原油 价格 的 相关 系数 矩阵 。 


+ correlate month 1goldf wtioil 
(obs=49) 


monch lgoldf wtioil 


1.0000 
0.9563 1.0000 
0.9418 0.8939 1.0000 


图 20.14 分 析 结 果 图 3 


从 上 述 分 析 结 果 中 可 以 看 到 3 个 变量 之 间 的 相关 系数 非常 高 。 其 中 月 份 与 黄金 价格 之 间 
的 相关 系数 为 0.9563， 月 份 与 石油 价格 之 间 的 相关 系数 为 0.9418。 我 们 知道 在 本 例 中 ,变量 月 
份 的 数据 取 值 是 从 1 开始 到 49 的 连续 整数 ， 黄 金价 格 、 石 油价 格 与 月 份 这 一 连续 等 距 增长 的 
数据 有 如 此 之 高 的 正 相关 系数 , 说 明 这 两 个 变量 本 身 就 是 一 种 不 断 增长 的 趋势 , 这 也 在 一 定 程 
度 上 验证 了 我 们 在 时 间 序 列 趋势 图 阶段 的 分 析 结 论 。 黄 金价 格 与 石油 价格 之 间 的 相关 系数 为 
0.8939， 高 的 正 相 关系 数 在 一 定 程度 上 说 明 这 两 个 变量 之 间 很 可 能 存在 着 一 定 的 联动 关系 ， 说 
明 我 们 的 后 续 分 析 是 很 有 必要 的 。 
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图 20.15 展示 的 是 变量 黄金 价格 的 对 数值 与 原油 价格 的 对 数值 的 相关 系数 矩阵 。 


+ correlate month lnLgoldf lrwtioil 
{obs=49) 


| month lnlgoldf lnwcioil 


monch 1.0000 
lnlgoldr 0.9636 1.0000 
lnwtioil 0.9584 0.9110 1.0000 


20.15 “分析 结果 图 4 


从 上 述 分 析 结 果 中 可 以 看 到 经 过 对 数 变换 处 理 以 后 , 3 个 变量 之 间 的 相关 系数 得 到 了 进 一 


步 的 提高 。 其 中 月 份 与 黄金 价格 对 数值 之 间 的 相关 系数 为 0.9636, 月 份 与 石油 价格 对 数值 之 间 
的 相关 系数 为 0.9584， 黄 金价 格 对 数值 与 石油 价格 对 数值 之 间 的 相关 系数 为 0.9110。 


图 20.16 展示 的 是 变量 黄金 价格 与 原油 价格 的 相关 系数 矩阵 的 显著 性 检验 , 设 定 置信 水 平 
为 99%。 


.pwcorr month lgoldf wtioil,sidak sig star(99) 


month lgoldf weioil 


1.0000 
0.9563w 1.0000 
0.0000 


0.9418w 0.8939* 1.0000 
0.0000 0.0000 


20.16 分析 结 果 图 5 


从 上 述 分 析 结 果 中 可 以 看 到 3 个 变量 之 间 的 相关 系数 非常 高 ， 均 通过 了 置信 水 平 为 99% 
的 相关 性 检验 。 

图 20.17 展示 的 是 变量 黄金 价格 的 对 数值 与 原油 价格 的 对 数值 的 相关 系数 矩阵 的 显著 性 
检验 ， 设 定 置 信 水 平 为 99%。 


+ pwoorr month lnlgoldf lnwtioil,sidak sig star(99) 


month lnlgoldf lnwcioil 


month 1.0000 


lnlgoldt 0.9636* 1.0000 
0.0000 


lnwcioil 0.9584* 0.9110* 1.0000 
0.0000 ”0.0000 


图 20.17 分 析 结 果 图 6 


从 上 述 分 析 结 果 中 可 以 看 到 3 个 变量 经 对 数 变换 处 理 之 后 的 相关 系数 依然 非常 高 ， 均 通 
过 了 置信 水 平 为 99% 的 相关 性 检验 。 
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20.5 ”单位 根 检 验 


对 于 时 间 序 列 数据 而 言 ， 数 据 的 平稳 性 对 于 模型 的 构建 是 非常 重要 的 。 如 果 时 间 序列 数 
据 是 不 平稳 的 ,可 能 会 导致 自 回归 系数 的 估计 值 向 左 偏向 于 0， 使 传统 的 了 检验 失效 ， 也 有 可 
能 会 使 得 两 个 相互 独立 的 变量 出 现 假 相 关 关系 或 者 回归 关系 , 造成 模型 结果 的 失真 。 单 位 根 检 
验 是 判断 数据 是 否 平稳 的 重要 方法 。 只 有 进行 了 该 步 操作 ， 我 们 才能 进行 后 续 的 深入 分 析 。 


20.5.1 ”Stata 分 析 过 程 


通过 前 面 的 分 析 可 以 发 现 经 过 对 数 变 换 处 理 之 后 的 变量 要 优 于 原 变量 ， 所 以 我 们 在 后 续 
的 分 析 中 不 再 包含 原 变 量 ,只 针对 对 数 变换 之 后 的 变量 进行 分 析 ， 并 得 出 研究 结论 。 本 例 我 们 
采用 3 种 单位 根 检验 分 析 方 法 ,分 别 是 PP 检验 、ADF 检验 以 及 DF-GLS 检验 。 在 前 面 我 们 通 
过 绘制 时 间 序列 趋势 图 发 现 变量 黄金 价格 的 对 数值 的 一 阶 差分 值 \ 原 油价 格 的 对 数值 的 一 阶 差 
分 值 是 没有 时 间 趋 势 的 ,而 变量 黄金 价格 的 对 数值 、 原 油价 格 的 对 数值 是 有 明显 、 稳 定 的 向 上 
增长 趋势 的 。 这 些 结论 将 会 在 单位 根 检验 的 操作 命令 中 被 用 到 。 


1. PP 检验 
PP 检验 的 操作 步骤 如 下 : 


加 进入 Stata 14.0， 打 开 相 关 数 据 文 件 ， 弹 出 主 界面 。 
贺 在 主 界面 的 “Command” 文 本 框 中 分 别 输入 如 下 命令 并 按键 盘 上 的 回 车 键 进行 确认 : 


® pperron Inlgoldf,trend 
® pperron Inwtioil,trend 
® pperron d.lnlgoldf,notrend 
® pperron d.lInwtioil,notrend 


[加 设置 完毕 后 ， 等 待 输出 结果 。 

2. ADF 检验 

ADF 检验 的 操作 步骤 如 下 : 

加 进入 Stata 14.0， 打 开 相 关 数据 文件 ， 弹 出 主 界面 。 

加 在 主 界面 的 “Command” 文 本 框 中 分 别 输入 如 下 命令 并 按键 盘 上 的 回 车 键 进 行 确认 : 


® dfullerlnlgoldf,trend lags(1) 
e dfullerlnwtioil,trend lags(2) 
e dfullerd.Inlgoldf,notrend lags(1) 
e dfuller d.Inwtioilnotrend lags(1) 


贺 设置 完毕 后 ， 等 待 输出 结果 。 
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3. DF-GLS 检验 
DF-GLS 检验 的 操作 步 又 如 下 : 


进入 Stata 14.0， 打 开 相 关 数 据 文件 ， 弹 出 主 界面 。 
贺 在 主 界面 的 “Command” 文 本 框 中 分 别 输入 如 下 命令 并 按键 盘 上 的 回 车 键 进 行 确认 : 


dfgls lnlgoldf 

dfgls lnwtioil 

dfegls d.Inlgoldfnotrend 
dfgls d.InwtioiLnotrend 


加 设置 完毕 后 ， 等 待 输出 结果 。 


20.5.2 ”结果 分 析 


在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 20.18~ 图 20.29 所 示 的 分 析 结 果 。 
1. PP 检验 结果 


PP 检验 的 结果 如 图 20.18~ 图 20.21 所 示 。 其 中 , 图 20.18 展示 的 是 黄金 价格 的 对 数值 这 一 
变量 的 PP 检验 结果 。 


图 20.18 分析 结果 图 1 


PP 检验 的 原 假设 是 数据 有 单位 根 。 从 上 面 的 结果 中 可 以 看 出 P 值 (MacKinnon approximate 
p-value for Z(t)) 为 0.4103， 接 受 了 有 单位 根 的 原 假设 ,这 一 点 也 可 以 通过 观察 Z(0) 值 和 Z(rho) 
值得 到 。 实 际 Z(0 值 为 -2.343， 在 1% 的 置信 水 平 (-4.168〉、5% 的 置信 水 平 〈-3.508) 、10% 
的 置信 水 平 上 (-3.185) 都 无 法 拒绝 原 假设 .实际 Z(rho) 值 为 -13.964, 在 1% 的 置信 水 平 (-25.444)、 
5% 的 置信 水 平 (-19.648) 、10% 的 置信 水 平 上 〈-16.704) 都 无 法 拒绝 原 假 设 ， 所 以 黄金 价格 
的 对 数值 这 一 变量 数据 是 存在 单位 根 的 ， 需 要 对 其 做 一 阶 差分 后 再 继续 进行 检验 。 

图 20.19 展示 的 是 原油 价格 的 对 数值 这 一 变量 的 PP 检验 结果 。 


20.19 ”分析 结果 图 2 
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PP 检验 的 原 假设 是 数据 有 单位 根 。 从 上 面 的 结果 中 可 以 看 出 P 值 (MacKinnon approximate 
p-value for Z(t)) 为 0.0950， 接受 了 有 单位 根 的 原 假设 , 这 一 点 也 可 以 通过 观察 Z(t) 值 和 Z(rho) 
值得 到 。 实 际 Z(D 值 为 -3.149， 在 1% 的 置信 水 平 (-4.168) 、5% 的 置信 水 平 (-3.508) 、10% 
的 置信 水 平 上 (-3.185) 都 无 法 拒绝 原 假设 .实际 Z(rho) 值 为 -16.484, 在 1% 的 置信 水 平 (-25.444)、 
5% 的 置信 水 平 〈-19.648) 、10% 的 置信 水 平 上 〈-16.704) 都 无 法 拒绝 原 假设 ， 所 以 原油 价格 
的 对 数值 这 一 变量 数据 是 存在 单位 根 的 ， 需 要 对 其 做 一 阶 差分 后 再 继续 进行 检验 。 

图 20.20 展示 的 是 黄金 价格 的 对 数值 的 一 阶 差分 值 这 一 变量 的 PP 检验 结果 。 


~ pperron dlnlgoldf ,notrend 


Number of ohs = 
Nevey-Vest lags = 


Interpolated Dickey-Fuller 一 一 一 一 
5s Cricical 10s Critical 
Value 


approximate p-value for Z(t) = 0.0000 


图 20.20 分 析 结 果 图 3 


PP 检验 的 原 假设 是 数据 有 单位 根 。, 从 上 面 的 结果 中 可 以 看 出 P 值 (MacKinnon approximate 
p-value for Z(t)) 为 0.0000， 拒绝 了 有 单位 根 的 原 假设 , 这 一 点 也 可 以 通过 观察 Z() 值 和 Z(rho) 
值得 到 。 实 际 Z(t) 值 为 -5.440， 在 1% 的 置信 水 平 (-3.600) 、5% 的 置信 水 平 (-2.938) 、10% 
的 置信 水 平 上 (-2.604) 都 拒绝 了 原 假设 ,实际 Z(rho) 值 为 -34.849, 在 1% 的 置信 水 平 (-18.696)、 
5% 的 置信 水 平 (-13.204) 、10% 的 置信 水 平 上 〈-10.640) 都 拒绝 了 原 假 设 ， 所 以 黄金 价格 的 
对 数值 的 一 阶 差 分 值 这 一 变量 数据 是 不 存在 单位 根 的 。 

图 20.21 展示 的 是 原油 价格 的 对 数值 的 一 阶 差分 值 这 一 变量 的 PP 检验 结果 。 


phillips-Perron test for urit root Nunber of obs = 
Nevey-Vest lags = 


Interpolated Dickey-Fuller 
Tesr 13 Critical 5s Critical 10s Critical 
Scaclstic Value Value Value 


Zrho) -35.177 -18.696 -13.204 -10.640 
ze) -6.434 -3.600 -2.938 -2.604 


Wackinnon appcoximare p-value for Z(t) = 0.0000 


20.21 分 析 结 果 图 4 


PP 检验 的 原 假 设 是 数据 有 单位 根 。 从 上 面 的 结果 中 可 以 看 出 P 值 (MacKinnon approximate 
p-value for Z(t)) 为 0.0000， 拒 绝 了 有 单位 根 的 原 假 设 ,这 一 点 也 可 以 通过 观察 Z(0 值 和 Z(rho) 
值得 和 到。 实际 Z(t) 值 为 -6.434， 在 1% 的 置信 水 平 (-3.600) 、5% 的 置信 水 平 〈-2.938) 、10% 
的 置信 水 平 上 (-2.604) 都 拒绝 了 原 假设 ,实际 Z(rho) 值 为 -35.177, 在 1% 的 置信 水 平 (-18.696)、 
5% 的 置信 水 平 〈-13.204) 、10% 的 置信 水 平 上 《〈-10.640) 都 拒绝 了 原 假设 ， 所 以 原油 价格 的 
对 数值 的 一 阶 差分 值 这 一 变量 数据 是 不 存在 单位 根 的 。 

2. ADF 检验 结果 

ADF 检验 的 结果 如 图 20.22~ 图 20.25 所 示 。 其 中 ,图 20.22 展示 的 是 黄金 价格 的 对 数值 这 
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一 变量 的 ADF 检验 结果 。 


， dfuller lmlgolaf,trend lagsfI) 


[Augmented Dickey-Fuller test for unit root Number of cbs = 47 
Interpolated Dickey-Fuller 
Teat 1% Critical St Critical 10* Critical 
Statistic Value Value Value 
z(t) -2.548 -4.178 -3.512 -3.187 


Nackinnon approximate p-value for Z(t) = 0.3043 


20.22 分析 结果 图 5 


ADF 检验 的 原 假设 是 数据 有 单位 根 。 从 上 面 的 结果 中 可 以 看 出 P 值 (MacKinnon 
approximate p-value for Z(t)) 为 0.3043, 接受 了 有 单位 根 的 原 假设 , 这 一 点 也 可 以 通过 观察 Z(t) 
值 和 Z(rho) 值 得 到 。 实际 Z(t) 值 为 -2.548, 在 1% 的 置信 水 平 (-4.178)、5% 的 置信 水 平 (-3.512)、 
10% 的 置信 水 平 上 〈-3.187) 都 无 法 拒绝 原 假 设 ， 所 以 黄金 价格 的 对 数值 这 一 变量 数据 是 存在 
单位 根 的， 需要 对 其 做 一 阶 差分 后 再 继续 进行 检验 。 

图 20.23 展示 的 是 原油 价格 的 对 数值 这 一 变量 的 ADF 检验 结果 。 


.dfuller lnwtioil,trend lags(2) 


Augmented Dickey-Fuller test for unit root Number of obs = 46 


Interpolated Dickey-Fuller 
Test 1% critical 5+ Critical 10% Critical 
Statistic Value Value Value 


ze) -2.674 -4.187 -3.516 -3.190 


MacKinnon approximate p-value for Z(t) = 0.2469 
20.23 ”分 析 结 果 图 6 


ADF 检验 的 原 假设 是 数据 有 单位 根 。 从 上 面 的 结果 中 可 以 看 出 P 值 (MacKinnon 
approximate p-value for Z(t)) 为 0.2469, 接受 了 有 单位 根 的 原 假设 , 这 一 点 也 可 以 通过 观察 Z(t) 
值 和 Z(rho) 值 得 到 。 实际 Z(t) 值 为 -2.674, 在 1% 的 置信 水 平 (-4.187) 、5% 的 置信 水 平 (-3.516) 、 
10% 的 置信 水 平 上 〈-3.190) 都 无 法 拒绝 原 假 设 ， 所 以 原油 价格 的 对 数值 这 一 变量 数据 是 存在 
单位 根 的 ， 需 要 对 其 做 一 阶 差分 后 再 继续 进行 检验 。 

图 20.24 展示 的 是 黄金 价格 的 对 数值 的 一 阶 差分 值 这 一 变量 的 ADF 检验 结果 。 


，afuller d.1nlgoldf ,notrend lags(1) 
Augmented Dickey-Fuller test for unic root Number of obs = 46 
Interpolated Dickey-Fuller 


Test 1% Critical Ss Critical 10* Critical 
Statistic Value Value Value 


z(t) -5.507 -3.607 -2.941 -2.605 


NacKinnon approximate p-value for Z(t) = 0.0000 


20.24 “分析 结果 图 7 


ADF 检验 的 原 假 设 是 数据 有 单位 根 。 从 上 面 的 结果 中 可 以 看 出 P 值 (MacKinnon 
approximate p-value for Z(t)) 为 0.0000, 拒绝 了 有 单位 根 的 原 假 设 , 这 一 点 也 可 以 通过 观察 Z(t) 
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值 和 Z(rho) 值 得 到 。 实际 Z(t) 值 为 -5.507, 在 1% 的 置信 水 平 (-3.607)、5% 的 置信 水 平 (-2.941)、 
10% 的 置信 水 平 上 -2.605〉 都 拒绝 了 原 假设 ， 所 以 黄金 价格 的 对 数值 的 一 阶 差 分 值 这 一 变量 
数据 是 不 存在 单位 根 的 。 

图 20.25 展示 的 是 原油 价格 的 对 数值 的 一 阶 差分 值 这 一 变量 的 ADF 检验 结果 。 


+ dfuller d.lrmwtioil,notrend lags(1) 
Augmented Dickey-Fuller test for unit root Number of obs = 46 
Interpolated Dickey-Fuller 


Test 14 Critical 5 critical 10s cricical 
Statistic Value Value Value 


z(t) -6.154 -3.607 -2.941 -2.605 


Mackinnon approximate p-value for Z(t) = 0.0000 


20.25 ”分析 结果 图 8 


ADF 检验 的 原 假设 是 数据 有 单位 根 。 从 上 面 的 结果 中 可 以 看 出 P 值 (MacKinnon 
approximate p-value for Z(t)) 为 0.0000, 拒绝 了 有 单位 根 的 原 假设 , 这 一 点 也 可 以 通过 观察 Z(t) 
值 和 Z(rho) 值 得 到 。 实际 Z(t) 值 为 -6.154, 在 1% 的 置信 水 平 (-3.607)、5% 的 置信 水 平 (-2.941) 、 
10% 的 置信 水 平 上 〈-2.605) 都 拒绝 了 原 假 设 ， 所 以 原油 价格 的 对 数值 的 一 阶 差分 值 这 一 变量 
数据 是 不 存在 单位 根 的 。 

3. DF-GLS 检验 结果 


DF-GLS 检验 的 结果 如 图 20.26~ 图 20.29 所 示 。 其 中 ， 图 20.26 展示 的 是 黄金 价格 的 对 数 
值 这 一 变量 的 DF-GLS 检验 结果 


.dfgls lnlgoldt 
DF-GLS for lmlgolaf Number of cbs = 38 
Iaxlag = 10 chosen by schvert criterion 
DF-GLS tau 1 Critical St Critical 10* Critical 
[laga] Test Statistic Value Value Value 
10 -1.459 -3.770 -2.673 -2.366 
9 -1.229 -3.770 -2.723 -2.425 
8 -1.434 -3.770 -2.783 -2.490 
7 -1.563 -3.770 -2.850 -2.559 
6 -2.119 -3.770 -2.921 -2.630 
5 -2.005 -3.770 -2.994 -2.701 
4 -2.678 -3.770 -3.066 -2.769 
3 -2.271 -3.770 -3.133 -2.833 
2 -1.681 -3.770 -3.195 -2.889 
1 -2.470 -3.770 -3.247 -2.937 
|opt Lag (Ng-Perron seq t) = 3 with RNSE .0269081 
min sc = -6.84775 ac lag 3 vith RNSE .0269081 
Min HAIC = -6.791573 ac lag 2 with RMSE .0285596 


20.26 ”分析 结果 图 9 


DF-GLS 检验 的 原 假设 是 数据 有 单位 根 。 从 上 面 的 结果 中 可 以 看 出 根据 信息 准则 确定 的 最 
优 滞后 阶 数 为 3 阶 (Opt Lag (Ng-Perron seq t) = 3 with RMSE.0269081) ， 在 该 阶 数 下 DF-GLS 
统计 量 的 值 是 -2.271， 在 1% 的 置信 水 平 -3.770) 、5% 的 置信 水 平 〈-3.133) 、10% 的 置信 水 
平 上 -2.833) 都 无 法 拒绝 原 假设 ， 所 以 黄金 价格 的 对 数值 这 一 变量 数据 是 存在 单位 根 的 ， 需 
要 对 其 做 一 阶 差分 后 再 继续 进行 检验 。 
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， afgls Lmtioil 


DF-GLS for lmertioil Number of obs = 38 
Naxlag = 10 chosen by Schwert criterion 


DF-GLS tau 1 Critical 5s Critical 10* Critical 

[lags] Test Statistic Value Value Value 
10 -2.047 -3.770 -2.673 -2.366 
9 -2.110 -3.770 -2.723 -2.425 
8 -1.691 -3.770 -2.783 -2.490 
7 -1.693 -3.770 -2.850 -2.559 
6 -1.842 -3.770 -2.921 -2.630 
5 -1.968 -3.770 -2.994 -2.701 
4 -1.386 -3.770 -3.066 -2.769 
3 -1.854 -3.770 -3.133 -2.833 
2 -2.522 -3.770 -3.195 -2.889 
1 -3.068 -3.770 -3.247 -2.937 


Opt Lag (Ng-Perron seq c) = 5 with RNSE .0539539 
Min SC = -5.264894 ar lag 5 vith RNSE .0539539 
Min MAIC = -5.148633 ar lag 4 with RNSE .0614735 


20.27 分 析 结 果 图 10 


DF-GLS 检验 的 原 假设 是 数据 有 单位 根 。 从 上 面 的 结果 中 可 以 看 出 根据 信息 准则 确定 的 最 
优 滞后 阶 数 为 5 阶 (Opt Lag (Ng-Perron seq t) =5 with RMSE 0.0539539), 在 该 阶 数 下 DF-GLS 
统计 量 的 值 是 -1.968， 在 1% 的 置信 水 平 -3.770) 、5% 的 置信 水 平 〈-2.994) 、10% 的 置信 水 
平 上 (-2.701) 都 无 法 拒绝 原 假设 ， 所 以 原油 价格 的 对 数值 这 一 变量 数据 是 存在 单位 根 的 ， 需 
要 对 其 做 一 阶 差 分 后 再 继续 进行 检验 。 

图 20.28 展示 的 是 黄金 价格 的 对 数值 的 一 阶 差 分 值 这 一 变量 的 DF-GLS 检验 结果 。 
. dfgls d.lnlgoldf ,notrend 


DF-GL3 for D.1inigoldf Number of ops = 38 
Naxlag = 9 chosen by Schwert criterion 


DF-GLS mu 14 Critical St Critical 10* Critical 

[laga] Test Statistic Value Value Value 
9 -0.886 -2.623 -2.087 -1.778 
8 -1.143 -2.623 -2.101 -1.798 
7 -1.239 -2.623 -2.124 -1.824 
6 -1.475 -2.623 -2.152 -1.854 
5 -1.408 -2.623 -2.185 -1.888 
4 -1.699 -2.623 -2.221 -1.923 
3 -1.526 -2.623 -2.256 -1.958 
2 -1.961 -2.623 -2.290 -1.990 
1 -3.705 -2.623 -2.321 -2.018 


opt Lag (Ng-Perron seq t) = 2 with RNSE .0302886 
Min sc = -6.706793 ar lag 2 with RNSE .0302886 
Min NAIC = -6.609422 ar lag 9 vith RNSE .026814 


图 20.28 分 析 结 果 图 11 
DF-GLS 检验 的 原 假设 是 数据 有 单位 根 。 从 上 面 的 结果 中 可 以 看 出 根据 信息 准则 确定 的 最 
优 滞后 阶 数 为 2 阶 (Opt Lag (Ng-Perron seq t) = 2 with RMSE 0.0302886) ， 在 该 阶 数 下 DF-GLS 
统计 量 的 值 是 -1.961， 在 1% 的 置信 水 平 -2.623) 、5% 的 置信 水 平 〈-2.290) 、10% 的 置信 水 平 
上 -1.990) 都 无 法 拒绝 原 假设 ， 所 以 黄金 价格 的 对 数值 的 一 阶 差分 值 这 一 变量 数据 是 存在 单位 
根 的 。 这 一 点 显然 与 我 们 前 面 的 检验 结果 不 一 致 ， 但 是 这 也 是 正常 情况 ， 事 实 上 我 们 选择 多 种 
检验 方法 对 数据 进行 单位 根 检验 的 初衷 就 是 综合 各 种 检验 方法 的 检验 结果 做 出 恰当 的 判断 。 
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图 20.29 展示 的 是 原油 价格 的 对 数值 的 一 阶 差 分 值 这 一 变量 的 DF-GLS 检验 结果 。 


. dfgls d.lnwtioil,notrend 


DF-GLS for D.lnwtioil Number of chs = 38 
Maxlag = 9 chosen by Schvert criterion 


DF-GLS mu 1% Critical St Critical 10* Critical 

[lags] Test Statistic Value Value Value 
9 -0.987 -2.623 -2.087 -1.778 
8 -1.012 -2.623 -2.101 -1.798 
7 -1.434 -2.623 -2.124 -1.824 
6 -1.655 -2.623 -2.152 -1.854 
5 -1.747 -2.623 -2.185 -1.888 
4 -1.842 -2.623 -2.221 -1.923 
3 -4.508 -2.623 -2.256 -1.958 
2 -5.016 -2.623 -2.290 -1.990 
1 -5.217 -2.623 -2.321 -2.018 


Opt Lag (Ng-Perron seq rc) = 4 vith RNSE .0599442 
Min SC = -5.150052 ar lag 4 with RNSE .0599442 
Min NAIC = -4.494275 at lag 8 with RNSE .0573994 


图 20.29 分 析 结 果 图 12 


DF-GLS 检验 的 原 假设 是 数据 有 单位 根 。 从 上 面 的 结果 中 可 以 看 出 根据 信息 准则 确定 的 最 
优 滞后 阶 数 为 4 阶 (Opt Lag (Ng-Perron seq t) = 4 with RMSE 0.0599442 ), 在 该 阶 数 下 DF-GLS 
统计 量 的 值 是 -1.842， 在 1% 的 置信 水 平 〈-2.623) 、5% 的 置信 水 平 〈-2.221) 、10% 的 置信 水 
平 上 〈-1.923) 都 无 法 拒绝 原 假设 ， 所 以 原油 价格 的 对 数值 的 一 阶 差分 值 这 一 变量 数据 是 存在 
单位 根 的 。 这 一 点 显然 与 我 们 前 面 的 检验 结果 不 一 致 ， 但 是 这 也 是 正常 情况 。 

根据 以 上 的 分 析 ， 综 合 考虑 3 种 检验 方法 的 检验 结果 ， 可 以 比较 有 把 握 地 得 出 以 下 结论 ， 
即 认为 变量 黄金 价格 的 对 数值 、 原油 价格 的 对 数值 是 存在 单位 根 的, 黄金 价格 的 对 数值 的 一 阶 
差分 值 、 原 油价 格 的 对 数值 的 一 阶 差分 值 是 不 存在 单位 根 的 , 变量 黄金 价格 的 对 数值 、 原 油价 
格 的 对 数值 是 一 阶 单 整 的 。 在 该 结论 的 基础 上 ， 将 进入 下 一 步 的 协 整 检验 分 析 过 程 。 


20.6 协 整 检验 


在 时 间 序 列 数据 不 平稳 的 情况 下 ， 构 建 出 合理 模型 的 重要 方法 就 是 进行 协 整 检验 并 构建 
合理 模型 的 处 理 方式 。 协 整 的 思想 就 是 把 存在 一 阶 单 整 的 变量 放 在 一 起 进行 分 析 , 通过 这 些 变 
量 做 线性 组 合 ， 从 而 消除 它们 的 随机 趋势 ， 得 到 其 长 期 联动 趋势 。 


20.6.1 Stata 分 析 过 程 


本 例 采用 EG-ADF 协 整 检验 分 析 方法 进行 分 析 。 在 前 面 的 小 节 中 ， 我 们 通过 绘制 时 间 序 
列 趋势 图 发 现 变量 黄金 价格 的 对 数值 的 一 阶 差分 值 、 原 油价 格 的 对 数值 的 一 阶 差 分 值 是 没有 时 
间 趋 势 的 ， 而 变量 黄金 价格 的 对 数值 、 原 油价 格 的 对 数值 是 有 明显 、 稳 定 的 向 上 增长 趋势 的 。 
通过 PP 检验 、ADF 检验 以 及 DF-GLS 检验 等 单位 根 检验 发 现 变量 黄金 价格 的 对 数值 、 原 油价 
格 的 对 数值 是 存在 单位 根 的 , 黄金 价格 的 对 数值 的 一 阶 差分 值 、 原 油价 格 的 对 数值 的 一 阶 差分 
值 是 不 存在 单位 根 的 ， 变 量 黄金 价格 的 对 数值 、 原 油价 格 的 对 数值 是 一 阶 单 整 的 。 这 些 结论 将 
会 在 协 整 检验 的 操作 命令 中 被 用 到 。 
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进入 Stata 14.0， 打 开 相 关 数 据 文件 ， 弹 出 主 界面 。 
四 在 主 界面 的 “Command” 文 本 框 中 分 别 输入 如 下 命令 并 按键 盘 上 的 回 车 键 进行 确认 : 


本 例 EG-ADF 检验 的 操作 步骤 如 下 : 


reg lnlgoldf lnwtioil 

predict e,resid 

twoway(line e month) 

dfuller e,notrend nocon lags(1) regress 
reg e lnlgoldf Inwtioil 


[加 设置 完毕 后 ， 等 待 输出 结果 。 


20.6.2 ”结果 分 析 


在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 20.30~ 图 20.33 所 示 的 分 析 结 果 。 

本 例 EG-ADF 检验 过 程 是 这 样 的 ， 首 先 把 黄金 价格 的 对 数值 作为 因 变 量 ， 把 原油 价格 的 
对 数值 作为 自 变 量 , 用 普通 最 小 二 乘 估计 法 进行 估计 得 到 残 差 序列 , 然后 对 残 差 序 列 进行 ADF 
检验 , 观测 其 是 否 为 平稳 序列 , 如 果 残 差 序 列 是 平稳 的 , 那么 变量 之 间 的 长 期 协 整 关系 就 存在 ， 
如 果 残 差 序列 是 不 平稳 的 ， 那 么 变量 之 间 的 长 期 协 整 关 系 就 不 存在 。 

图 20.30 reer i 把 原油 价格 的 对 数值 作为 自 变 量 , 用 
普通 最 小 二 乘 估计 法 进行 估计 的 结 


:reg lnlgoldf lnwtioil 

Source ES dr ns Nunber of obs = 49 

FT( 1， 47) " 229.28 

Hodel | .958171095 1 .958171095 Prob > = 0.0000 
Residual | .196417615 47 .004179098 R-squared = 0.8299 
Adj R-squared = 0.8263 

Toral | 1.15458871 。 48 .024053931 Root NSE = .06465 
lnlgoladt Coef. Std. Err. < Pp>ltl [95* Conf. Interval] 
lnwtioil .4365488 .0288305 15.14 0.000 .3785492 .4945483 
4.361619 .1047776 41.63 0.000 4.150834 。 4.572404 


20.30 分 析 结 果 图 1 


从 上 述 分 析 结果 中 可 以 得 到 很 多 信息 。 可 以 看 出 共有 49 个 样本 参与 了 分 析 ， 模 型 的 F 值 
(1, 47) =229.28，P 值 (Prob > F) = 0.0000， 说 明 模 型 整体 上 是 非常 显著 的 。 模 型 的 可 决 系数 
(R-squared) 为 0.8299， 模 型 修正 的 可 决 系数 (Adj R-squared) 为 0.8263， 说 明 模型 的 解释 能 
力 还 是 差强人意 的 。 

模型 的 回归 方程 是 : 

Inlgoldf =0.4365488* lnwtioil +4.361619 


变量 Inwtioil 的 系数 标准 误 是 0.0288305, t 值 为 15.14, P 值 为 0.000, 系数 是 非常 显著 的 ， 
95% 的 置信 区 间 为 [0.3785492 , 0.4945483]。 常 数 项 的 系数 标准 误 是 0.1047776, t 值 为 41.63, P 
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值 为 0.000， 系 数 也 是 非常 显著 的 ，95% 的 置信 区 间 为 [4.150834 , 4.572404]。 
从 上 面 的 分 析 可 以 看 出 简单 回归 的 模型 在 一 定 程度 上 是 可 以 接受 的 ， 但 也 存在 提升 改进 
的 空间 。 本 模型 得 到 的 基本 结论 是 黄金 价格 和 石油 价格 是 一 种 正 向 联动 关系 , 石油 价格 的 升 高 
会 带 来 黄金 价格 的 升 高 。 
图 20.31 展示 的 是 对 模型 残 差 的 预测 结果 。 选 择 “Data” Data Editor” Data Editor(Browse)” 
命令 ， 进 入 数据 查看 界面 ， 可 以 看 到 如 图 20.31 所 示 的 数据 。 


month galaf wion moodr 1meiol1 
1 as- 


20.31 分 析 结果 图 2 
20.32 展示 的 是 残 差 序列 的 时 间 走 势 ， 可 以 发 现 残 差 序 列 是 没有 固定 时 间 趋 势 的 。 


20.32 分析 结果 图 3 
图 20.33 展示 的 是 残 差 序列 ADF 检验 结果 。 
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. dfuller e,notrend nocon lags(1) regress 


Augmented Dickey-Fuller test for unit root Number of obs = 47 


Interpolated Dickey-Fuller 


Test 1% Critical 5s Critical 10* Critical 
Statistic Value Value Value 
zfc) -2.052 -2.625 -1.950 -1.609 
D.e Coef. Std. Err. t py>lcl [95% Conf. Interval] 
上 
L1. -.203746 .0992795 -2.05 0.046 。 -.4037052  -.0037868 
LD. .1433098 。 ,1529618 0.94 0.354 -164771 .4513906 


图 20.33 分 析 结 果 图 4 


ADF 检验 的 原 假设 是 数据 有 单位 根 。 从 上 面 的 结果 中 可 以 看 出 实际 Z(t) 值 为 -2.052， 介 于 
1% 的 置信 水 平 (-2.625) 和 5% 的 置信 水 平 (-1.950) 之 间 ， 所 以 在 5% 的 显著 性 水 平 上 应 该 拒 
绝 存 在 单位 根 的 原 假设 ， 残 差 序列 是 不 存在 单位 根 的 ， 或 者 说 残 差 序列 是 平稳 的 。 

综 上 所 述 ， 黄 金价 格 的 对 数值 、 原 油价 格 的 对 数值 两 个 变量 间 存 在 一 定 的 协 整 关系 。 根 
据 上 面 的 分 析 结 果 可 以 构建 出 相应 的 模型 来 描述 这 种 协 整 关系 。 这 一 点 我 们 在 后 续 章节 中 将 有 
详细 说 明 。 


20.7” 格 兰 杰 因果 关系 检验 
协 整 关系 表示 的 仅仅 是 变量 之 间 的 某 种 长 期 联动 关系 ， 与 因果 关系 是 毫 无 关联 的 ， 例 如 
本 例 中 虽然 黄金 价格 与 原油 价格 之 间 存 在 协 整 关系 , 但 是 究竟 是 黄金 价格 影响 了 原油 价格 , 还 
是 原油 价格 影响 了 黄金 价格 , 亦 或 是 它们 相互 影响 ”如 果 要 探究 变量 之 间 的 因果 关系 , 就 需要 
用 到 格 兰 杰 因 果 关 系 检 验 。 
20.7.1 stata 分 析 过 程 


在 前 面 几 节 中 ， 通 过 单位 根 检验 发 现 黄金 价格 的 对 数值 、 原 油价 格 的 对 数值 两 个 变量 是 


一 阶 单 整 的 ,所 以 我 们 在 进行 格 兰 杰 因果 关系 检验 时 选择 的 变量 是 : 黄金 价格 的 对 数值 、 原 油 
价格 的 对 数值 。 
格 兰 杰 因果 关系 检验 的 操作 步骤 如 下 : 


进入 Stata 14.0， 打 开 相 关 数据 文件 ， 弹 出 主 界面 。 
国 在 主 界面 的 “Command” 文 本 框 中 分 别 输入 如 下 命令 并 按键 盘 上 的 回 车 键 进 行 确认 : 


reg lnlgoldf l.Inlgoldf 1.Inwtioil 
test 1.Inwtioil 
reg lnwtioill.Inwtioil l.Inlgoldf 
test 1Inlgoldf 


加 设置 完毕 后 ， 等 待 输出 结果 。 
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20.7.2 结果 分 析 


在 Stata 14.0 主 界面 的 结果 窗口 我 们 可 以 看 到 如 图 20.34~ 图 20.35 所 示 的 分 析 结 果 。 


a. Er Erltl [sos conf. Interval] 
.9530761 .0740646 12.87 0.000 .8039023 。 1.10225 
0241425 .0344262 0.70 0.487 -~.0451954 .0934803 
cons | .2052032 .331026 0.62 0.530 。 -.4614374 .9720037 


test 1.lmwtioil 
1 Lbmtioil = 0 


(0 1 55 = 0.49 


20.34 ”分析 结 果 图 1 


图 20.34 展示 的 是 原油 价格 是 否 是 黄金 价格 的 格 兰 杰 因 的 检验 结果 。 通过 观察 分 析 结 果 可 
以 看 出 LInwtioil 的 系数 值 是 非常 不 显著 的 。 具体 体现 在 其 t 值 、F 值 以 及 P 值 上 ， 关 于 这 一 结 
果 的 详细 解读 方法 前 面 章 节 中 多 有 提 及 , 限于 篇 幅 此 处 不 再 獒 述 , 所 以 可 以 比较 有 把 握 地 得 出 
结论 ， 原 油价 格 不 是 黄金 价格 的 格 兰 杰 因 。 

图 20.35 展示 的 是 黄金 价格 是 否 是 原油 价格 的 格 兰 杰 因 的 检验 结果 。 通过 观察 分 析 结 果 可 
以 看 出 LInlgoldf 的 系数 值 是 不 显著 的 。 具体 体现 在 其 t 值 、F 值 以 及 P 值 上 ， 关 于 这 一 结果 的 
详细 解读 方法 前 面 章节 中 多 有 提 及 ， 限 于 篇 幅 此 处 不 再 獒 述 。 但 是 ,我 们 在 前 面 章节 中 曾经 提 
到 存在 协 整 关系 的 变量 间 至 少 有 一 种 格 兰 杰 因 果 关 系 , 所 以 可 以 相对 地 认为 黄金 价格 是 原油 价 
格 的 格 兰 杰 因 。 


eg nwtioil 1 1nwtioil 1.1n1golaf 


Source ES a 3 Nunber of obs = 48 
F( 2, 45) = 397.55 
Model | 4.36148081 = 2 2.1807404 Prcb > 下 = 0.0000 
Hesidual | .246847782 。 45 .005485506 R-squared = = 0.9464 
Ad R-squared = 0.9441 
Torcal | 4.60832839 47 .098049344 Root sz = .07406 
nwcioil Coef. Std. Err. |] [95s Conf. Interval] 
lnwcicil 
Ra .8482087 .0811204 10.46 0.000 6848239 。 1.011594 
lnlgolat 
L1. 
test 工 .Inlgalar 


图 20.35 分 析 结 果 图 2 


472 


第 20 章 时 Stata 在 原油 与 黄金 价格 联动 关系 研究 中 的 应 用 


\\\\\\\\\\\\\\\\ UN \ 


\\\\ 


\ 
| \ \ 
20.8 建立 模型 


在 经 过 了 对 数据 进行 描述 性 分 析 、 绘 制 变量 时 间 序 列 趋势 图 简要 分 析 数 据 特征 、 进 行 相 
关 性 检验 探索 变量 之 间 的 相关 关系 、 进 行 单位 根 检验 综合 分 析 数 据 平稳 性 、 使 用 协 整 检 验方 式 
分 析 数 据 长 期 均衡 关系 、 进行 格 兰 杰 因果 关系 检验 探讨 变量 因果 关系 之 后 , 本 节 进 行 最 后 的 步 
又， 就 是 根据 前 面 得 出 的 一 系列 结论 建立 相应 的 数据 模型 。 建 立 模型 的 步骤 如 下 。 

1. 建立 模型 方程 

根据 前 面 几 节 的 分 析 构 建 如 下 所 示 的 模型 方程 : 


d. Inwtioil =a+ b*dl. Inwtioil + c*d.Inlgoldf+dxecmtl +u 


其 中 ，a、b、c、d 为 系数 ，ecm 为 误差 修正 项 ，u 为 误差 扰动 项 。 
ecm 误差 修正 项 的 模型 方程 为 : 


ecmt = Inwtioil -a* Inlgoldf ~b 

其 中 ，a、b 为 系数 。 实 质 上 ，ecm 是 该 模型 方程 的 误差 扰动 项 ， 或 者 说 以 Inwtioil 为 因 变 
以 Inlgoldf 为 自 变量 进行 最 小 二 乘 估计 回归 后 的 残 差 。 

2. 估计 残 差 序列 

在 主 界面 的 “Command” 文 本 框 中 输入 命令 : 


reg lnwtioil lnlgoldf 
predict e,resid 


并 按键 盘 上 的 回 车 键 分 别 进行 确认 ， 即 可 出 现 如 图 20.36 所 示 的 残 差 序列 。 


局 


mach 19o1gf wo nlgoldf 1mwclo1 上 
3 19.67 $.640665 2.979095 [-.0682274 
2 2 295.5 20.74 $.é9a669 9.072064 ney 
3 3 294.05 24.42 5 0661762 
4 302.68 26.27 5.732 -0842123 
s 5 4 27.02 $5.750952 3.296577 1 01359569 
6 0.25 35 S79 39.019402 D 06200 
7 313.29 26.94 5.747129 1.290612 S0019009 
本 § 0.25 28.38 5.737379 1.34568s i409 
3 9 M916 29.67 5.76569 1.330096 大 全 
1 10 316.56 24.85 5.757513 = 3.30214 D 00600 
1 1 319.15 26.27 5.765661 13.200428 Doiesise 
22 2 29.42 5S.806429 13.781675 i920 
了 2 356. 上 6 32.34 5.877344 31.494688 后 
14 4 359 35.87 $5.884213 3.579904 B 0990 
1s 35 340.55 1.55 S830562 1.513037 大 
16 328.58 .25 5. 31.341094 1 0007970 
y 355.68 2 3.337192 Wes77607 
18 5 56 30.72 3.424914 egos7ee 
19 351 30.76 

20 20 359. .59 

21 785 .23 5.997 

a2 EE 30.53 5.997325 3.412037 900 
23 EE 31.09 $.965916 。 3.436886 aes 
24 24 407.59 32.45 6.010262 3.470412 B90 
2s 25 413.99 34.27 G025842 3.53427 D205 
26 26 405.33 34.74 6.004702 3.547892 29902 
27 27 406.67 36.76 6.008002 3.60441 汪 
28 2 01.02 36.69 s.998986 3.602s04 Dias 
29 23 383.4 40.28 5.949079 3.695ess 天 全 


20.36 查看 数据 
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3. 估计 误差 修正 项 方程 
在 主 界面 的 “Command” 文 本 框 中 输入 命令 : 


reg e lnwtioil lnlgoldf 


并 按键 盘 上 的 回 车 键 进行 确认 , 即 可 出 现 如 图 20.37 所 示 的 ecm 误差 修正 项 的 模型 方程 估 
计 结 果 。 


:reg e lnwtioil linlgoldf 
Source ss 上 ms Number of obs = 49 
Fl 2 46h = 

Nodel | .855323994 2 .427661997 Prop >F = 

Residual o R-squared = 1.0000 

Adj R-squared = 1.0000 

Toral | .855323994 48 .01781925 Root NSE = 0 

e Coef. Std. Err. 上 Pp>ltl [95% Conf. Interval] 
lnwcioil 
lnlgoldt | -1.901004 
_cons 7.675604 


e=Inwtioil-1.901004*Inlgoldf+7.675604 
该 方程 反映 的 是 变量 的 长 期 均衡 关系 。 


4. 估计 模型 整体 方程 


在 主 界面 的 “Command” 文 本 框 中 输入 命令 : 


reg d.lnwtioil dl.lnwtioil d.lnlgoldf 1.e 


并 按键 盘 上 的 回 车 键 进行 确认 ， 即 可 出 现 如 图 20.38 所 示 的 模型 整体 方程 估计 结果 。 


20.37 分析 结果 图 1 
观察 分 析 结 果 ， 我 们 得 到 的 ecm 模型 方程 为 : 


ER 
Source SS dr nS Number of obs = a7 
了 ( 3, 43) = 2.31 
Residual .229113878 43 .00532823 R-squared = 0.1388 
D.lnwtioil Coef. Std. Err. 所 P>1cl 【95s# Conf. Interval] 
。 

_cons -014413 -+0121972 1.18 0.244 一.010185 “0390109 

图 20.38 分 析 结果 图 2 
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(Prob >F)= 0.0897, 说 明 模型 整体 上 还 是 可 以 接受 的 。 模 型 的 可 决 系数 (R-squared ) 为 0.1388， 
模型 修正 的 可 决 系数 (Adj R-squared) 为 0.0788， 说 明 模型 解释 能 力 偏 弱 。 
模型 的 回归 方程 是 : 


d.Inwtioil = 0.133125 *dl.Inwtioil+ 0.5852346*d1.Inlgoldf -0.1847524*]1.e+ 0.014413 


变量 dl.Inwtioi 的 系数 标准 误 是 0.1472165, t 值 为 0.90, P 值 为 0.371， 系 数 是 非常 不 显著 
的 ，95% 的 置信 区 间 为 [-0.1637653，0.4300154]。 变 量 dl.Inlgoldf 的 系数 标准 误 是 0.3525989， 
t 值 为 1.66, P 值 为 0.104， 系 数 也 是 非常 不 显著 的 ，95% 的 置信 区 间 为 [-0.1258489 , 1.296318]。 
变量 Le 的 系数 标准 误 是 0.0830589，t 值 为 -2.22，P 值 为 0.031， 系 数 是 比较 显著 的 ，95% 的 置 


了 


区 间 为 [-0.3522566 , -0.0172481]。 常 数 项 的 系数 标准 误 是 0.0121972,t 值 为 1.18,P 值 为 0.244， 


系数 也 是 非常 不 显著 的 ，95% 的 置信 区 间 为 [-0.010185 , 0.0390109] 。 
从 上 面 的 分 析 中 可 以 看 出 ， 变 量 间 的 短期 关系 是 比较 不 显著 的 ， 但 是 变量 的 长 期 均衡 关 


系 却 很 显著 。 
20.9 ”研究 结论 
经 过 前 面 的 研究 之 后 ， 可 以 比较 有 把 握 地 得 出 以 下 研究 结论 ， 


黄金 价格 和 原油 价格 都 不 是 平稳 的 ， 都 是 具有 长 期 增长 趋势 ， 并 且 存 在 很 多 波动 的 。 
我 们 从 时 间 序列 走势 图 上 可 以 看 出 两 个 变量 的 长 期 增长 性 , 从 单位 根 检验 结果 上 可 以 
看 出 黄金 价格 和 原油 价格 的 不 平稳 性 。 

黄金 价格 和 原油 价格 之 间 是 存在 长 期 均衡 关系 的 , 这 一 点 可 以 从 协 整 检验 的 结论 上 看 
出 来 。 这 意味 着 黄金 价格 和 原油 价格 存在 某 种 价格 联动 关系 ， 在 长 期 中 是 可 以 找到 变 
动 规律 的 。 

原油 价格 不 是 黄金 价格 的 格 兰 杰 因 ， 但 黄金 价格 是 原油 价格 的 格 兰 杰 因 。 或 者 说 ， 黄 
金价 格 的 变动 会 引起 原油 价格 的 相应 变动 , 但 原油 价格 的 变动 未 必 会 引起 黄金 价格 的 
相应 变动 。 

黄金 价格 和 原油 价格 长 期 是 一 种 正 向 变动 关系 。 这 一 点 从 误差 修正 项 方程 上 就 能 看 出 
来 , 得 出 的 误差 修正 项 方程 是 e=Inwtioil-1.901004*Inlgoldft7.675604, 在 探讨 长 期 关系 时 
e 取 值 为 0， 那 么 方程 就 变 为 Inwtioil=1.901004*lnlgoldf-7.675604， 所 以 黄金 价格 的 变化 
会 引起 原油 价格 的 同 向 变化 ， 当 黄金 价格 升 高 时 ， 原 油价 格 会 随 之 升 高 。 

短期 内 ， 黄 金价 格 和 原油 价格 也 是 一 种 正 向 变动 关系 ,但 是 这 种 短期 关系 远 远 不 如 长 
期 关系 更 明显 。 一 方面 体现 在 黄金 价格 作为 自 变量 的 系数 值 上 ， 在 长 期 关系 下 系数 值 
更 大 ; 另 一 方面 体现 在 变量 的 显著 性 上 ， 在 长 期 关系 下 系数 的 显著 程度 更 高 。 

长 期 均衡 关系 的 存在 可 以 较 好 地 平抑 短期 波动 . 我们 可 以 看 到 模型 整体 的 回归 方程 中 
误差 修正 项 的 系数 是 负 值 而 且 非 常 显著 , 这 说 明 长 期 均衡 关系 可 以 有 效 削 弱 短 期 内 变 
量 的 剧烈 波动 。 例如 黄金 价格 突然 大 幅度 迅速 上 涨 , 那么 由 于 模型 中 长 期 关系 的 存在 ， 
误差 修正 项 也 会 随 着 提升 ， 从 而 使 短期 内 原油 价格 不 会 提升 太 多 。 
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20.10 ”本 章 习 题 


表 20.2 给 出 了 某 企 业经 营 资产 和 经 营利 润 的 有 关 数 据 ， 试 使 用 描述 性 分 析 、 时 间 序 列 趋 
势 图 分 析 、 相 关 性 检验 、 单 位 根 检验 、 协 整 检验 、 格 兰 杰 因 果 关 系 检验 等 方法 研究 数据 特征 并 
对 变量 间 的 关系 进行 分 析 ， 最 后 建立 相应 的 方程 模型 描述 两 者 之 间 的 联动 关系 。 

表 20.2 某 企业 经 营 资产 和 经 营利 润 的 有 关 数 据 
月 份 经 营 资产 /万 元 
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第 21 章 Stata 在 ROE 与 股权 集中 度 
之 间 关 系 研究 中 的 应 用 


企业 管理 者 总 是 希望 能 探寻 到 最 佳 的 组 织 架构 ， 以 便 在 资源 既定 的 前 提 下 实现 企业 的 最 
优化 经 营 , 所 以 企业 经 营业 绩 和 股权 集中 度 之 间 的 关系 历来 是 学 者 们 研究 的 热点 。 本 章 选取 在 
沪 深 两 市 上 市 的 我 国 14 家 上 市 银行 在 2008 年 前 三 季度 的 数据 作为 样本 进行 了 观测 ， 并 使 用 
Stata 14.0 对 数据 进行 了 深入 分 析 ， 发 现 我 国 上 市 银行 的 净 资产 收益 率 与 其 第 一 大 股东 的 持 股 
量 之 间 存 在 着 倒 “U” 型 关系 。 


21.1 研究 背景 


关于 股权 集中 度 问题 的 研究 起 源 于 Berle 与 Means (1933) ， 他 们 认为 随 着 所 有 权 的 扩散 ， 
现代 公司 中 典型 的 股东 已 不 再 能 真正 行使 有 效 监督 经 营 者 行为 的 权利 , 而 所 有 者 与 经 营 者 的 利 
益 冲 突 的 结果 总 是 以 有 利于 经 营 者 一 方 而 结束 ， 私 人 财产 的 社会 功能 也 因此 受到 严重 的 损害 。 
Jensen 和 Meckling (1976) 对 公司 价值 与 经 理 所 拥有 的 股权 之 间 的 关系 进行 了 研究 ， 认 为 公司 
价值 取决 于 内 部 股东 所 占有 股份 的 比例 ， 这 一 比例 越 高 ， 公 司 的 价值 就 越 大 。 

其 后 ， 国 外 的 相关 研究 主要 集中 在 “股权 集中 度 与 企业 经 营业 绩 和 企业 市 场 价值 是 否 存 
在 显著 的 相关 关系 ”方面 , 但 是 并 无 明确 一 致 的 实证 结果 。Demsets 和 Lehn (1985) 考察 了 《 财 
富 》 上 511 家 美国 大 公司 , 发 现 股 权 集中 度 与 ROE 并 不 相关 。Shlelter 和 Vishny (1986、1997) 
认为 大 股东 但 不 控股 股东 的 存在 有 利于 改善 公司 的 控制 问题 ， 进 而 增加 公司 价值 。Mcconnell 
Servaes (1990) 认为 公司 价值 是 公司 股权 结构 的 函数 ， 他 们 通过 对 1986 年 1093 个 样本 公司 
的 市 场 价值 与 公司 资产 重 置 价值 的 比值 和 股权 结构 关系 的 实证 分 析 , 得 出 一 个 具有 显著 性 的 结 
论 ， 即 此 比值 与 股权 之 间 具 有 曲线 关系 ， 股 权 从 0 增加 至 40% 时 ， 曲 线 向 上 倾斜 ， 比 例 达到 
40%~50% 时 ， 曲 线 开始 向 下 倾斜 。Mehran (1995) 研究 发 现 股权 集中 度 与 企业 的 TobinQ 值 、 
ROE 均 无 显著 相关 关系 。Han 和 Suk (1998) 研究 发 现 ， 公 司 业绩 与 外 部 大 量 持 股 股东 的 股权 
比例 呈正 相关 。 
国内 关于 股权 集中 度 的 研究 文献 主要 有 : 许小年 〈1997) 的 研究 表明 国有 股 比重 大 ， 公 
司 效益 差 ， 而 法 人 股 则 相反 。 陈 晓 和 江东 〈2000) 引入 行业 变量 ， 发 现 公司 业绩 与 股权 结构 相 
关 , 但 股权 多 元 化 发 挥 功能 的 前 提 是 提高 行业 竞争 性 。 陈 小 悦 和 徐 晓 东 (2001) 在 划分 保护 性 
和 非 保护 性 行业 后 , 发 现在 非 保护 性 行业 第 一 大 股东 持 股 比例 与 业绩 正 相关 , 国有 股 和 法 人 股 
比例 与 业绩 关系 不 显著 。 朱 武 祥和 宋 勇 (2001) 重点 以 家 电 行 业 为 样本 论证 了 股权 结构 与 公司 
业绩 之 间 并 不 存在 显著 关系 。 
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21.2 ”基本 概念 与 数据 说 明 


股权 集中 度 (Concentration Ratio of Shares) 是 指 全 部 股东 因 持 股 比例 的 不 同 所 表现 出 来 
的 股权 集中 还 是 分 散 的 数量 化 指标 , 是 衡量 公司 的 股权 分 布 状态 的 主要 指标 , 也 是 衡量 公司 稳 


定性 强 弱 的 重要 指标 。 
本 章 采 用 的 是 第 一 大 股东 的 持 股 量 、 前 五 大 股东 的 持 股 量 、 前 十 大 股东 的 持 股 量 以 及 它 
们 各 自 的 平方 项 。 


公司 绩效 是 指 公 司 经 营 的 业绩 和 效率 ， 它 反映 公司 的 经 营 效果 ， 一 般 用 某 个 或 一 组 财务 
指标 加 以 反映 ， 目 前 国内 外 股权 结构 研究 一 般 采 用 托 宾 Q 比率 、 净 资产 收益 率 (ROE)》 及 主 
营业 务 资 产 收 益 率 〈CROA ) 作为 公司 绩效 的 评价 标准 。 


。 托 宾 Q 比率 : Q= 企 业 市 场 价值 /企业 重 置 成 本 = ( 权益 市 场 总 值 + 负债 总 值 ) /公司 总 产 
账面 价值 。 

。 净 资 产 收 益 率 : ROE = 净利 润 / 净 资产 。 

e。 主 营 业务 资产 收益 率 : CROA = 主 营 业务 利润 /总 资产 。 

本 章 采 用 的 是 ROE 指标 。 ROE 指标 反映 了 一 定 资本 量 下 的 相对 利润 水 平 , 体现 了 资产 的 
三 利 能 力 , 是 资产 是 否 优良 的 重要 衡量 指标 。 尽管 更 严格 意义 上 的 定义 应 该 是 将 其 中 非 主 营利 
润 从 公司 熏 利 中 剔除 , 甚至 还 应 该 对 公司 的 净 资 产 指标 进行 严格 评估 ,但 是 就 整体 统计 层面 上 ， 
ROE 水 平 应 该 是 一 个 非常 好 的 指标 。 

受 前 人 研究 的 启发 ， 本 章 选 取 了 在 沪 深 两 市 上 市 的 中 国 14 家 上 市 银行 在 2008 年 前 三 季 
度 的 数据 作为 样本 , 进行 了 观测 , 发 现 我 国 上 市 银行 的 净 资 产 收益 率 与 其 第 一 大 股东 的 持 股 量 
之 间 存 在 着 倒 “U” 型 关系 。 
样本 数据 为 面板 数据 ， 上 市 银行 包括 深圳 发 展 银行 、 宁 波 银行 、 浦 发 银行 、 华 夏 银行 、 
民生 银行 、 招 商 银行 、 南 京 银行 、 兴 业 银行 、 北 京 银 行 、 交 通 银行 、 工 商 银行 、 建 设 银行 、 中 
银行 和 中 信 银 行 。 时 间 点 分 别 为 2008 年 9 月 30 日 .2008 年 6 月 30 日 和 2008 年 3 月 31 日 。 
数据 来 源 于 中 国 上 市 公司 资讯 网 ， 其 中 ROE 的 数据 和 前 十 大 股东 的 各 自 数 据 可 以 直接 从 网 上 
得 到 。 因 为 本 章 还 试图 以 前 五 大 股东 或 者 前 十 大 股东 的 总 持 股 量 作为 解释 变量 , 所 以 手工 计算 
了 前 五 大 股东 或 者 前 十 大 股东 的 总 持 股 量 (具体 数据 见 表 21.1) 。 


表 21.1 沪 深 两 市 上 市 的 中 国 14 家 上 市 银行 在 2008 年 前 三 季度 的 数据 


上 市 银行 第 一 大 股东 的 | 前 五 大 股东 的 | 前 十 大 股东 的 | 净 资产 收 | 时 间 (1 代表 20080930, 2 代表 
持 股 量 (比例 )〉| 持 股 量 (比例 〉| 持 股 量 (比例 ) | 益 率 20080630，3 代 表 20080331) 
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( 续 表 ) 

上 市 银行 第 一 大 股东 的 | 前 五 大 股东 的 | 前 十 大 股东 的 | 净 资产 收 | 时 间 (1 代表 20080930， 2 代表 

持 股 量 (比例 )| 持 股 量 (比例) | 持 股 量 (比例 ) | 益 率 20080630，3 代 表 20080331) 
中 国 银行 | 67.49 95.45 97.25 13.03 1 
中 国 银行 | 67.49 95.46 97.26 9.65 2 
中 国 银 行 | 67.49 953 97.24 4.86 3 
中 信和 银行 | 62.33 94.73 95.33 13.19 1 
中 信和 银行 | 62.33 94.74 95.34 9.33 2 
中 信 银 行 | 62.33 94.74 95.34 4.86 3 

21.3 ”实证 分 析 


下 载 资源 :\video\chap21\… 


下 载 资源 :\sample\chap21\ 案 例 21.dta 


21.3.1 描述 性 分 析 


在 用 Stata 进行 分 析 之 前 ， 我 们 要 把 数据 录入 到 Stata 中 。 本 例 中 有 9 个 变量 ， 分 别 为 第 
-大 股东 的 持 股 量 、 前 五 大 股东 的 持 股 量 、 前 十 大 股东 的 持 股 量 、 净 资产 收益 率 、 时 间 、 第 一 
大 股东 的 持 股 量 的 平方 、 前 五 大 股东 的 持 股 量 的 平方 、 前 十 大 股东 的 持 股 量 的 平方 、 银 行 名 称 。 
我 们 把 第 一 大 股东 的 持 股 量变 量 设 定 为 ttpp1， 把 前 五 大 股东 的 持 股 量变 量 设 定 为 top5， 把 前 
十 大 股东 的 持 股 量变 量 设 定 为 top10， 把 净 资产 收益 率 变量 设 定 为 re， 把 时 间 变量 设 定 为 t， 
把 第 一 大 股东 的 持 股 量 的 平方 变量 设 定 为 stop1， 把 前 五 大 股东 的 持 股 量 的 平方 变量 设 定 为 
stop5， 把 前 十 大 股东 的 持 股 量 的 平方 变量 设 定 为 sop10， 把 银行 名 称 变量 设 定 为 bank。 变 量 
类 型 及 长 度 采取 系统 默认 方式 ， 然 后 录入 相关 数据 。 相 关 操 作 我 们 在 第 1 章 中 已 有 详细 讲述 。 
录入 完成 后 数据 如 图 21.1 所 示 。 


口 notaoa -El 页 页 页 
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21.1 案例 21 数据 
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先 做 一 下 数据 保存 ， 然 后 开始 展开 分 析 ， 分 析 步 骤 及 结果 如 下 : 


进入 Stata 14.0， 打 开 相关 数据 文件 ， 弹 出 主 界面 。 
贺 在 主 界面 的 “Command” 文 本 框 中 输入 命令 : 


Summarize top1 top5 top10 roe 七 stopl stop5 stop10 bank 
加 设置 完毕 后 ， 按 键盘 上 的 回 车 键 进行 确认 。 
在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 21.2 所 示 的 分 析 结 果 。 


，Ssummarize topl top5 topl0 roe t stopl stop5 stop10 bank 
Variable obs Nean Std. Dev. Hin Nax 
topl 42 23.61881 21.56027 .29 67.49 
cop5 42 47.22786 32.81483 74 95.46 
top10 42 53.05762 31.36387 1.03 97.26 
roe 42 11.68238 5.407001 3.93 25.84 
和 42 2 .8263939 入 3 
stopl 42 10.11626 15.19319 .000841 45.549 
stops 42 32.81645 35.96414 .005476 -91.12611 
atop10 42 37.75382 35.62448 .010609 94.59508 
bank 42 73.3 4.079993 i 14 


图 21.2 描述 性 分 析 结 果 图 


通过 观察 分 析 结 果 ， 可 以 对 沪 深 两 市 上 市 的 中 国 14 家 上 市 银行 在 2008 年 前 三 季度 的 数 
据 有 整体 初步 的 了 解 。 从 结果 可 以 看 出 ， 有 效 观测 样本 共有 42 个 。 第 一 大 股东 的 持 股 量 的 均 
值 是 23.61881， 标 准 差 是 21.56027， 最 小 值 是 0.29， 最 大 值 是 67.49; 前 五 大 股东 的 持 股 量 的 
均值 是 47.22786， 标 准 差 是 32.81483， 最 小 值 是 0.74， 最 大 值 是 95.46; 前 十 大 股东 的 持 股 量 
的 均值 是 53.05762， 标 准 差 是 31.36387， 最 小 值 是 1.03， 最 大 值 是 97.26; 净 资 产 收 益 率 的 均 
值 是 11.68238， 标 准 差 是 5.407001， 最 小 值 是 3.93， 最 大 值 是 25.84; 此 处 时 间 变 量 被 简单 地 
看 成 了 定 距 变 量 ， 按 定 距 变量 的 描述 性 统计 进行 了 处 理 ， 均 值 是 2， 标 准 差 是 0.8263939， 最 
小 值 是 1， 最 大 值 是 3; 第 一 大 股东 的 持 股 量 的 平方 的 均值 是 10.11626， 标 准 差 是 15.19319， 
最 小 值 是 0.000841， 最 大 值 是 45.549; 前 五 大 股东 的 持 股 量 平方 的 均值 是 32.81645， 标准 差 是 
35.96414， 最 小 值 是 0.005476， 最 大 值 是 91.12611; 前 十 大 股东 的 持 股 量 的 平方 的 均值 是 
37.75382， 标 准 差 是 35.62448， 最 小 值 是 0.010609， 最 大 值 是 94.59508; 此 处 时 间 变 量 被 简单 
地 看 成 了 定 距 变量 ， 其 最 小 值 为 1， 最 大 值 为 4， 说明 共有 14 家 银行 参与 了 分 析 过 程 。 


21.3.2 图形 分 析 


图 形 分 析 步骤 及 结果 如 下 : 
进入 Stata 14.0， 打 开 相 关 数 据 文 件 ， 弹 出 主 界面 。 
贺 在 主 界面 的 “Command” 文 本 框 中 输入 命令 : 


。 ”twoway scatter roetop1: 本 命令 旨 在 绘制 净 资 产 收益 率 和 第 一 大 股东 的 持 股 量 的 散 点 图 。 
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日 twoway scatter roe top5: 本 命令 旨 在 绘制 净 资产 收益 率 和 前 五 大 股东 的 持 股 量 的 散 点 图 。 

。 ”twoway scatter roe top10: 本 命令 旨 在 绘制 净 资 产 收益 率 和 前 十 大 股东 的 持 股 量 的 散 点 图 。 

日 twoway scatter roe stop1: 本 命令 旨 在 绘制 净 资 产 收益 率 和 第 一 大 股东 的 持 股 量 的 平方 
的 散 点 图 。 

日 twoway scatter roe stop5: 本 命令 旨 在 绘制 净 资 产 收益 率 和 前 五 大 股东 的 持 股 量 的 平方 
的 散 点 图 。 

日 twoway scatter roe stop10: 本 命令 旨 在 绘制 净 资 产 收益 率 和 前 十 大 股东 的 持 股 量 的 平 
方 的 散 点 图 。 

加 设置 完毕 后 ， 按 键盘 上 的 回 车 键 进行 确认 。 


在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 21.3~ 图 21.8 所 示 的 分 析 结 果 。 
图 21.3 是 净 资 产 收益 率 和 第 一 大 股东 的 持 股 量 的 散 点 图 。 
图 21.4 是 净 资 产 收益 率 和 前 五 大 股东 的 持 股 量 的 散 点 图 。 
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图 21.3 图 形 分 析 结 果 1 图 21.4 图 形 分 析 结果 2 
图 21.5 是 净 资 产 收益 率 和 前 十 大 股东 的 持 股 量 的 散 点 图 。 
图 21.6 是 净 资产 收益 率 和 第 一 大 股东 的 持 股 量 的 平方 的 散 点 图 。 
| 8 “ 
8 。 | 
撤 . . 疾 人 
i Es 2 1. 。。 “ 
全 全 汪 0 和 
Wy 
0 20 可 0 100 6 10 30 加 0 
图 21.5 图 形 分 析 结果 3 图 21.6 ”图形 分 析 结果 4 


图 21.7 是 净 资 产 收益 率 和 前 五 大 股东 的 持 股 量 的 平方 的 散 点 图 。 
图 21.8 是 净 资产 收益 率 和 前 十 大 股东 的 持 股 量 的 平方 的 散 点 图 。 
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图 21.7 图 形 分 析 结果 5 图 21.8 图 形 分 析 结 果 6 


从 图 上 可 以 发 现 我 国 上 市 银行 的 净 资产 收益 率 与 股权 集中 度 之 间 似 乎 并 没有 显著 的 关系 。 


21.3.3 ”普通 最 小 二 乘 回归 分 析 


下 面 以 ROE 为 被 解释 变量 ， 以 第 一 大 股东 持 股 量 (top1) 、 前 五 大 股东 持 股 量 (top5) 、 
前 十 大 股东 持 股 量 (top10) 、 第 一 大 股东 持 股 量 的 平方 除 以 100 〈stop1) 、 前 五 大 股东 持 股 
量 的 平方 除 以 100〈stop5) 、 前 十 大 股东 持 股 量 的 平方 除 以 100 (stop10) 为 解释 变量 ， 后 3 
项 之 所 以 除 以 100 是 为 了 使 解释 变量 数据 之 间 的 差距 不 致 于 过 大 。 

建立 线性 模型 : 


ROE=a*topl+b*topS+c*topl0+d*stopl+e*stopS+f*stopl10+u 
普通 最 小 二 乘 回归 分 析 的 步骤 及 结果 如 下 : 


加 进入 Stata 14.0， 打 开 相 关 数 据 文 件 ， 弹 出 主 界面 。 
加 在 主 界面 的 “Command” 文 本 框 中 输入 如 下 命令 。 


® Sw regress roe topl top5 top10 stopl stop5 stop10,pr(0.05): 本 命令 的 含义 是 使 用 逐步 回 
归 分 析 方 法 ， 以 净 资 产 收益 率 为 因 变 量 ， 以 第 一 大 股东 的 持 股 量 、 前 五 大 股东 的 持 股 
量 、 前 十 大 股东 的 持 股 量 、 第 一 大 股东 的 持 股 量 的 平方 、 前 五 大 股东 的 持 股 量 的 平方 、 
前 十 大 股东 的 持 股 量 的 平方 等 变量 为 自 变量 ， 进 行 最 小 二 乘 回 归 分 析 。 

® reg roetopl top5 top10 stopl stop5 stop10,vce(cluster bank): 本 命令 的 含义 是 以 净 资 
产 收益 率 为 因 变 量 ， 以 第 一 大 股东 的 持 股 量 、 前 五 大 股东 的 持 股 量 、 前 十 大 股东 的 持 
股 量 、 第 一 大 股东 的 持 股 量 的 平方 、 前 五 大 股东 的 持 股 量 的 平方 、 前 十 大 股东 的 持 股 
量 的 平方 等 变量 为 自 变 量 ， 并 使 用 以 “bank” 为 聚 类 变量 的 聚 类 稳健 标准 差 ， 进 行 最 
小 二 乘 回 归 分 析 。 

ee Ieg roetopl top5 stopl,vce(cluster bank): 本 命令 是 在 上 步 回 归 的 基础 上 ， 噜 除 掉 不 
显著 的 自 变 量 以 后 ， 以 净 资 产 收 益 率 为 因 变 量 ， 以 第 一 大 股东 的 持 股 量 、 前 五 大 股东 
的 持 股 量 、 第 一 大 股东 的 持 股 量 的 平方 等 变量 为 自 变 量 ， 并 使 用 以 “bank” 为 聚 类 变 
量 的 聚 类 稳健 标准 差 ， 进 行 最 小 二 乘 回 归 分 析 。 
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加 设置 完毕 后 ， 按 键盘 上 的 回 车 键 进行 确认 。 
在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 21.9~ 图 21.11 所 示 的 分 析 结 果 。 
图 21.9 是 使 用 逐步 回归 分 析 方法 ， 以 净 资 产 收益 率 为 因 变量 ， 以 第 一 大 股东 的 持 股 量 、 
前 五 大 股东 的 持 股 量 、 前 十 大 股东 的 持 股 量 、 第 一 大 股东 的 持 股 量 的 平方 、 前 五 大 股东 的 持 股 
量 的 平方 、 前 十 大 股东 的 持 股 量 的 平方 等 变量 为 自 变量 ， 进 行 最 小 二 乘 回归 分 析 的 结果 。 


.sw regress roe topl top5 top10 stopl stop5 stop10,pr(0.05) 
begin vith full model 

p = 0.4778 >= 0.0500 removing stop10 
p = 0.5920 >= 0.0500 removing stop5 
p = 0.2445 >= 0.0500 removing top10 

Source | 55 ar ns Number of obs = 42 

F( 3 38) 3.28 

Model | 246.501432 3 82.1671441 Prob > 下 = 0.0312 

Residual | 952.160703 38 25.0568606 R-squared = 0.2056 

adj R-squared = 0.1429 

Toral | 1198.66214 41 29.2356618 Root NSE = 5.0057 

roe Coef. Std. Err. t Pp>ltl [95s Conf. Interval] 

topl .9265336 。 .3214238 2.88 0.006 .2758452 1.577222 

cop5 | -.1944912 .0941327 -2.07 0.046 -.385053 -.0039295 

opl | -.9541558 .3058385 -3.12 0.003 。 -1.573294  -,3350181 

cons 8.63665 1.701976 5.07 0.000 5.191179 12.08212 


21.9 普通 最 小 二 乘 回 归 分 析 结果 1 


从 上 述 分 析 结果 中 可 以 看 出 共有 42 个 样本 参与 了 分 析 , 模型 的 F 值 (3, 38) =3.28,P 值 (Prob 
> F) = 0.0312， 说 明 模 型 整体 上 是 非常 显著 的 。 模 型 的 可 决 系数 (R-squared) 为 0.2056， 横 
型 修正 的 可 决 系数 (Adj R-squared) 为 0.1429， 说 明 模型 的 解释 能 力 还 是 差强人意 的 。 

变量 topl 的 系数 标准 误 是 0.3214238, t 值 为 2.88, P 值 为 0.006, 系数 是 非常 显著 的 , 95% 
的 置信 区 间 为 [0.2758452, 1.577222]。 变 量 top5 的 系数 标准 误 是 0.0941327，t 值 为 -2.07，P 值 
为 0.046， 系数 是 非常 显著 的 ，95% 的 置信 区 间 为 [-0.385053, -0.0039295]。 变 量 stopl 的 系数 标 
准 误 是 0.3058385,t 值 为 -3.12, P 值 为 0.003, 系数 是 非常 显著 的 , 95% 的 置信 区 间 为 [-1.573294， 
-0.3350181]。 常 数 项 的 系数 标准 误 是 1.701976，t 值 为 5.07，P 值 为 0.000， 系 数 也 是 非常 显著 
的 ，95% 的 置信 区 间 为 [5.191179, 12.08212]。 

模型 的 回归 方程 是 : 


ROE=0.9265336*top1-0.9541558*stop1-0.1944912*top5+8.63665 


可 以 看 出 stopl 前 面 的 系数 显著 为 负 ， 说 明 中 国 上 市 银行 的 ROE 与 第 一 大 股东 持 股 量 之 
间 显 著 存在 着 倒 “U” 型 关系 。 

图 21.10 是 以 净 资产 收益 率 为 因 变量 ,以 第 一 大 股东 的 持 股 量 、 前 五 大 股东 的 持 股 量 、 前 
十 大 股东 的 持 股 量 、 第 一 大 股东 的 持 股 量 的 平方 、 前 五 大 股东 的 持 股 量 的 平方 、 前 十 大 股东 的 
持 股 量 的 平方 等 变量 为 自 变量 ， 并 使 用 以 “bank” 为 聚 类 变量 的 聚 类 稳健 标准 差 ， 进 行 最 小 二 
乘 回归 分 析 的 结果 。 
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(scd。 Err. adjusted for 14 clusters in bank) 


Robuar 
Coef. scd。Err. t Pp>ltl [95% Conf. Interval] 
copl 1.126628 。 .4611476 2.44 0.030 -1303789 。 2.122877 
rop5 | -.9885495 .4308575 -2.29 0.039 -1.919361  -.0577384 
top10 .6892669 .3152673 2.19 0.048 .0081732 1.370361 
acopl | -1.165315 .4522619 -2.58 0.023 -2.142367  -.1882624 
acop5 .568966 .343857 1.65 0.122 -.173892 。 1.311824 
stop10 | -.4732053 .3197272 -1.48 0.163 -1.163934 .2175233 
_cons 6.171474 1.431993 4.31 0.001 3.077841 。 9.265107 


图 21.10 普通 最 小 二 乘 回归 分 析 结果 2 


可 以 看 出 ， 使 用 以 净 资 产 收 益 率 为 因 变量 ， 以 第 一 大 股东 的 持 股 量 、 前 五 大 股东 的 持 股 
量 、 前 十 大 股东 的 持 股 量 、 第 一 大 股东 的 持 股 量 的 平方 、 前 五 大 股东 的 持 股 量 的 平方 、 前 十 大 
股东 的 持 股 量 的 平方 等 变量 为 自 变 量 ， 并 使 用 以 “bank” 为 聚 类 变量 的 聚 类 稳健 标准 差 ， 进 行 
最 小 二 乘 回 归 分 析 的 结果 较 普通 最 小 二 乘 回归 分 析 在 模型 解释 能 力 上 有 所 提高 。 

图 21.11 是 在 上 步 回归 的 基础 上 ， 吻 除 不 显著 的 自 变量 以 后 ， 以 净 资 产 收 益 率 为 因 变量 ， 
以 第 一 大 股东 的 持 股 量 、 前 五 大 股东 的 持 股 量 、 第 一 大 股东 的 持 股 量 的 平方 等 变量 为 自 变量 ， 
并 使 用 以 “bank” 为 聚 类 变量 的 聚 类 稳健 标准 差 ， 进 行 最 小 二 乘 回 归 分 析 的 结果 。 

可 以 看 出 ， 在 剔除 不 显著 的 自 变量 以 后 ， 以 净 资 产 收益 率 为 因 变 量 ， 以 第 一 大 股东 的 持 股 
量 、 前 五 大 股东 的 持 股 量 、 第 一 大 股东 的 持 股 量 的 平方 等 变量 为 自 变量 ， 并 使 用 以 “bank” 为 
聚 类 变量 的 聚 类 稳健 标准 差 , 进行 最 小 二 乘 回归 分 析 的 结果 与 普通 最 小 二 乘 回 归 分 析 大 同 小 异 。 


eg roe topl top5 stopl,voe(cluster bank) 


Number of obs = 42 
Fr( 3, 13)= 4.60 
Prob > 了 = 0.0209 
R-aquared = 0.2056 
Root NSE = 5.0057 


(Std. Err. adjusted for 14 clusters in bank) 


Robusr 
Coef. Std. Err. Ca 1) [95* Conf. Interval] 


.9265336 。 .3346691 0.016 .2035251 = 1.649542 
-.1944912 .0886654 -2. 0.047  -.3860413  -.0029412 
-.9541558 .3145051 -3. 0.010 。 -1.633603  -.2747089 

8.63665 1.236456 0.000 5.965448 11.30785 


21.11 普通 最 小 二 乘 回归 分 析 结果 3 


21.3.4 面板 数据 回归 分 析 


下 面 以 ROE 为 被 解释 变量 ， 以 第 一 大 股东 持 股 量 (top1) 、 前 五 大 股东 持 股 量 top5) 、 
前 十 大 股东 持 股 量 top10) 、 第 一 大 股东 持 股 量 的 平方 除 以 100 (stop1) 、 前 五 大 股东 持 股 
量 的 平方 除 以 100 (stop5) 、 前 十 大 股东 持 股 量 的 平方 除 以 100 (stop10) 为 解释 变量 ， 后 三 
项 之 所 以 除 以 100 是 为 了 使 解释 变量 数据 之 间 的 差距 不 致 于 过 大 。 


NN 
人 


集中 度 之 间 关 系 研究 中 的 应 用 


ROE=a*top1+b*topS+c#xtop10+d*stop1+e*stopS+f#stop10+u 
面板 数据 回归 分 析 的 步骤 及 结果 如 下 : 


进入 Stata 14.0， 打 开 相关 数据 文件 ， 弹 出 主 界面 。 
思 在 主 界面 的 “Command” 文 本 框 中 输入 如 下 命令 : 


list roe topl top5 top10 stopl stop5 stop10: 本 命令 的 含义 是 对 7 个 变量 所 包含 的 样本 数 
据 进行 一 一 展示 , 以 便 简 单 直观 地 观测 出 数据 的 具体 特征 , 为 深入 分 析 做 好 必要 准备 。 
xtset bank t: 本 命令 的 含义 是 对 面板 数据 进行 定义 ， 其 中 横 截面 维度 变量 为 我 们 上 
步 生 成 的 bank， 时 间 序 列 变量 为 t。 

xtdes: 本 命令 旨 在 观测 面板 数据 的 结构 ， 考 察 面 板 数据 特征 ， 为 后 续 分 析 做 好 必要 准 
备 。 
xtsum: 本 命令 旨 在 显示 面板 数据 组 内 、 组 间 以 及 整体 的 统计 指标 。 

xttab roe: 本 命令 旨 在 显示 “roe” 变 量 组 内 、 组 间 以 及 整体 的 分 布 频率 。 

xttab top1: 本 命令 旨 在 显示 “top1” 变 量 组 内 、 组 间 以 及 整体 的 分 布 频率 。 

xttab top5: 本 命令 旨 在 显示 “top5” 变 量 组 内 、 组 间 以 及 整体 的 分 布 频率 。 

xttab stop1: 本 命令 旨 在 显示 “stop1” 变 量 组 内 、 组 间 以 及 整体 的 分 布 频率 。 

xtline roe: 本 命令 旨 在 对 每 个 个 体 显 示 “roe” 变 量 的 时 间 序 列 图 。 

xtline top1: 本 命令 旨 在 对 每 个 个 体 显示 “top1” 变 量 的 时 间 序 列 图 。 

xtline top5: 本 命令 旨 在 对 每 个 个 体 显示 “top5” 变 量 的 时 间 序 列 图 。 

xtline stop1: 本 命令 旨 在 对 每 个 个 体 显示 “stop1” 变 量 的 时 间 序 列 图 。 

xtreg roe topl top5 stopl,fe vce(cluster bank): 本 命令 的 含义 是 以 roe 为 因 变 量 ， 以 
top1、top5、stop1 为 自 变 量 ， 并 使 用 以 “bank” 为 聚 类 变量 的 聚 类 稳健 标准 差 ， 进 行 
固定 效应 回归 分 析 。 

xtreg roe topl top5 stop1,fe: 本 命令 的 含义 是 以 roe 为 因 变 量 , 以 topl、top5、stopl 为 
自 变 量 ， 进 行 固定 效应 回归 分 析 。 

estimates store fe: 本 命令 的 含义 是 存储 固定 效应 回归 分 析 的 估计 结果 。 

xi:xtreg roe topl top5 stop1 i.bank,vce(cluster bank): 本 命令 旨 在 通过 构建 最 小 二 乘虚 拟 
变量 模型 来 分 析 固 定 效应 模型 是 否 优 于 最 小 二 乘 回 归 分 析 。 

tab tgen(t): 本 命令 旨 在 创建 年 度 变量 的 多 个 虚拟 变量 。 

xtreg roe topl top5 stopl t2-t3,fe vce(cluster bank): 本 命令 旨 在 通过 构建 双向 固定 效应 
模型 来 检验 模型 中 是 否 应 该 包含 时 间 效 应 。 

test 人 包 1t: 本 命令 的 含义 是 在 上 步 回 归 的 基础 上 , 通过 测试 各 虚拟 变量 的 系数 联合 显 
著 性 来 检验 是 否 应 该 在 模型 中 纳入 时 间 效应 。 

xtreg roe topl top5 stopl,re vce(cluster bank): 本 命令 的 含义 是 以 roe 为 因 变 量 , 以 topl、 
top5、stopl 为 自 变量 ， 并 使 用 以 “bank” 为 聚 类 变量 的 聚 类 稳健 标准 差 ， 进 行 随机 效 
应 回归 分 析 。 

xttest0: 本 命令 的 含义 是 在 上 步 回归 的 基础 上 ， 进 行 假设 检验 来 判断 随机 效应 模型 是 
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否 优 于 最 小 二 乘 回归 模型 。 

。 ”xtreg roe topl top5 stopl,mle: 本 命令 的 含义 是 以 roe 为 因 变 量 ， 以 topl、top5、stop1 
为 自 变量 ， 并 使 用 最 大 似 然 估计 方法 ， 进 行 随机 效应 回归 分 析 。 

。 xtreg roe topl top5 stopl,be: 本 命令 的 含义 是 以 roe 为 因 变 量 ， 以 topl、top5、stop1 
为 自 变 量 ， 并 使 用 组 间 估 计量 ， 进 行 组 间 估 计量 回归 分 析 。 

。 ”xtreg roetopl tops stopl,re: 本 命令 的 含义 是 以 roe 为 因 变 量 ， 以 tpp1、top5、stop1 为 
自 变 量 ， 进 行 随机 效应 回归 分 析 。 

。 ”estimates store re: 本 命令 的 含义 是 存储 随机 效应 回归 分 析 的 估计 结果 。 

。 ”hausman fe re,constant sigmamore: 本 命令 的 含义 是 进行 豪 斯 曼 检验 ， 并 据 此 判断 应 该 
选择 固定 效应 模型 还 是 随机 效应 模型 。 

加 设置 完毕 后 ， 按 键盘 上 的 回 车 键 进行 确认 。 


在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 21.12~ 图 21.37 所 示 的 分 析 结 果 。 

图 21.12 是 对 数据 进行 展示 的 结果 。 它 的 目的 是 通过 对 变量 所 包含 的 样本 数据 进行 一 一 展 
以 便 简单 直观 地 观测 出 数据 的 具体 特征 ， 为 深入 分 析 做 好 必要 准备 。 

在 如 图 21.12 所 示 的 分 析 结 果 中 可 以 看 出 , 数据 的 总 体质 量 还 是 可 以 的 , 没有 极端 异常 值 ， 
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图 21.12 


面板 数据 回归 分 析 结 果 1 
图 21.13 是 对 面板 数据 进行 定义 的 结果 , 其 中 横 截面 维度 变量 为 bank, 时 间 序 列 变量 为 t。 


.xtset bankt 
panel variable: bank (strongly balanced) 

time variable: 

delta: 


ti 3 
1 unit 


图 21.13 面板 数据 回归 分 析 结 果 2 


从 图 21.13 中 可 以 看 出 这 是 一 个 平衡 的 面板 数据 。 
图 21.14 是 面板 数据 结构 的 结果 。 
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xtdes 
bank: n= 14 
ct T= 3 
Span(t) = 3 periods 
(bankrr uniquely identifies each observation) 
Distribution of Ti: min Ss 25s sos Tss 9ss ax 
3 3 3 3 3 3 3 
Freq. Percenc Cum. | Pattern 
14 100.00 100.00 | 111 
14 100.00 Ze 


图 21.14 面板 数据 回归 分 析 结 果 3 


从 图 21.14 可 以 看 出 该 面板 数据 的 横 截面 维度 bank 为 1~14 共 14 个 取 值 ， 时 间 序 列 维度 
t 为 1~3 共 3 个 取 值 ， 属 于 短 面板 数据 ， 而 且 观 测 样本 在 时 间 上 的 分 布 也 非常 均匀 。 

图 21.15 是 面板 数据 组 内 、 组 间 以 及 整体 的 统计 指标 的 结果 。 

在 短 面板 数据 中 ， 同 一 时 间 段 内 的 不 同 观测 样本 构成 一 个 组 。 从 图 21.15 中 可 以 看 出 ， 变 
量 year 的 组 间 标 准 差 是 0， 因 为 不 同 组 的 这 一 变量 取 值 完全 相同 ， 同 时 变量 bank 的 组 内 标准 
差 也 为 0， 分布 在 同一 组 的 数据 属于 同一 个 地 区 。 


xxtsum 
|variable Wean Std. Dev. nin Max observarions 
topl overall | 23.61881 21.56027 29 67.49 了 = 42 
betveen 20.96504 。 4.513333 67.49 ne 14 
vithin 6.837636 -6.89119 40.15881 T= § 
tops overall | 47.22786 32.81483 .74 95.46 n= 人 
betveen 30.91719 15.85 。 95.40333 = 14 
vithin 12.94482 -3.875475 72.78452 T= 3 
opl0 overall | 53.05762 31.36387 1.03 97.26 下 = 人 
herween 28.39021 。 19.94333 97.25 n= 14 
vichin 14.73111 .937619 90.76429 T= 和 
oe overall | 11.60230 5.407001 3.93 25.04 了 -~ 好 
betveen 2.893701 7.646667 17.73667 n= 14 
vichin 4.612008 2.895714 19.78571 T= a 
日 overall 2 .a263939 1 3 ne 人 
betveen o 刘 2 n= 14 
within .8263939 和 3 T= 3 
stopl overall | 10.11625 15.19319 .000841 45.549 n= 人 
betveen 14.977 .3154 45.549 n= 14 
within 4.179034 -11.22277 。 22.27213 T= 3 
stop5 overall | 32.81645 35.96414 .005476 91.12611 n= 人 
betveen 34.88239 3.980137 91.01801 n= 14 
within 11.6516 -24.47805 61.47314 T= 3 
acoplo overall | 37.75382 35.62448 .010609 94.59508 n= 人 
betveen 33.89342 6.921476 94.57563 n= 14 
vithin 13.2807 -21.82976 67.56487 T= 3 
bank overall 7.5 4.079993 1 14 N= 二 
eewccn 1833 本 14 a 14 
vithin o 7.5 7.5 T= 3 


图 21.15 面板 数据 回归 分 析 结 果 4 
图 21.16 是 “roe” 变 量 组 内 、 组 间 以 及 整体 的 分 布 频率 的 结果 。 
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图 21.16 面板 数据 回归 分 析 结 果 5 


图 21.17 是 “top1” 变 量 组 内 、 组 间 以 及 整体 的 分 布 频率 的 结果 。 


xttab topl 
Overall Betveen Vithin 
topl Freq. Percent Freq. Percent Percent 
.29 2.38 1 33.33 
.82 1 2.38 1 33.33 
1.27 2.38 1 33.33 
1.62 昌 2,38 1 33.33 
2.45 1 2.38 1 33.33 
3.06 1 2.38 和 33.33 
3.28 入 2.38 i 33.33 
5 和 2.38 1 33.33 
5.9 2 4.76 1 66.67 
6.55 1 得 33.33 
7.61 和 1 33.33 
10.19 和 1 33.33 
10.8 多 1 33.33 
12.07 1 33.33 
12.78 2 1 66.67 
12.99 和 得 33.33 
16.07 3 a 100.00 
16.76 和 1 33.33 
17.8 a 1 33.33 
17.88 2 1 66.67 
20.4 1 1 33.33 
23.57 2 a 66.67 
26.48 3 a 100.00 
35.33 3 ED 100.00 
56.55 1 33.33 
59.12 1 1 33.33 
62.33 3 CT 100.00 
67.49 3 a 100.00 
Total 42 100.00 28 200.00 50.00 
tn = 14) 


图 21.17 面板 数据 回归 分 析 结果 6 
图 21.18 是 “top5” 变 量 组 内 、 组 间 以 及 整体 的 分 布 频率 的 结果 。 


11.28 1 2.38 1 了 .13 33.33 

Overall Betveen Vithin 13.03 2.38 1 7.14 33.33 

4.06 ba 2.38 和 了 .3 33.33 14.03 和 2.38 1 7.14 33.33 
etd Ed eg 和 1 sd 14.91 1 2.38 1 7.14 33.33 
| 
ete . de a re 16.58 1 2.38 1 7.14 33.33 
7.18 1 2.38 1 7.14 33.33 shia 要 和 和 和 0 Ld 
7.35 1 2.38 2 7.16 33.33 18.42 各 2.38 1 7.14 33.33 
8.95 和 2.38 主 了 .14 33.33 25.64 1 2.38 1 了 .14 33.33 
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.38 
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.38 
.38 
.38 


Overall Betveen Wichin 
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21.18 面板 数据 回归 分 析 结 果 7 


图 21.19 是 “stop1” 变 量 组 内 、 组 间 以 及 整体 的 分 布 频 率 的 结果 。 
图 21.20 是 对 每 个 个 体 显 示 “roe” 变 量 的 时 间 序 列 图 的 结果 。 


,xttab stopl 
Overall Betveen Vithin 
topl Freq, Percent Freq, Percent Percent 
000841 1 2.38 到 7.14 33.33 
.006724 2.38 1 7.14 33.33 
.016123 1 2.38 和 可 33.33 
.026249 1 2.38 六 we 33.33 
.060025 1 2.38 1 7. 33.33 
.093636 1 2.38 1 33.33 
107584 1 2.38 1 33.33 
.25 1 938 1 7 33.33 
3461 2 4.76 1 66.67 
.429025 1 2.38 1 7 33.33 A TN uf 人 
.579121 1 2.38 和 33.33 员 
1.038361 2 2.30 要 7 33.33 2 = = ee 
1.1664 1 2.38 1 7 33.33 四 一 一 
1.456849 1 2.38 33.33 
1.633264 2 4.76 . yD: 66.67 i 本 Wn a 
2 .5B2449 3 7.14 1 7. 100.00 一 一 全 一 一 一 一 
2.808976 1 2.38 1 可 33.33 相 ” 
3.1684 2.38 1 更 33.33 学 相公 恨 行 RA 要 本 各 商 银行 
3.196944 2 4.76 1 2 66.67 a 
i 站 2 aa53 | 室 3 = = 
5.555443 0 & 66.67 
7.011904 a 7.14 1 7 100.00 Dt 
12.48209 3 7.14 和 100.00 
31.97902 1 2.38 1 了 33.33 i Mt 
34.95174 1 2.38 1 ge 33.33 8 
38.85029 3 7.14 % 100.00 = 一 = 一 二 一 
45.549 3 7.14 Re 100.00 EE 
TT 
Total 42 100.00 28 200.00 50.00 时 间 
ta = 14) Graphs by 上 市 委 行 


图 21.19 面板 数据 回归 分 析 结果 8 图 21.20 面板 数据 回归 分 析 结 果 9 


从 图 21.20 可 以 看 出 , 不同 银行 的 净 资 产 收 益 率 的 时 间 趋 势 是 大 致 相同 的 , 都 随 着 时 间 的 
推移 而 下 降 ， 但 是 下 降 的 速度 和 平缓 程度 存在 一 定 的 差别 。 
图 21.21 是 对 每 个 个 体 显示 “top1” 变 量 的 时 间 序 列 图 的 结果 。 
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图 21.21 面板 数据 回归 分 析 结 果 10 


从 图 21.21 可 以 看 出 ,不同 银行 的 第 一 大 股东 的 持 股 比 率 的 时 间 趋 势 是 不 一 致 的 ， 有 的 银 
行 是 持续 不 变 的 ， 有 的 是 先 上 升 后 下 降 ， 有 的 是 先 不 变 后 下 降 。 

图 21.22 是 对 每 个 个 体 显示 “top5” 变 量 的 时 间 序 列 图 的 结果 。 

从 图 21.22 可 以 看 出 ,不 同 银行 的 前 五 大 股东 的 持 股 比 率 的 时 间 趋 势 是 不 一 致 的 ， 有 的 银 
行 是 持续 不 变 的 ， 有 的 是 先 上 升 后 下 降 ， 有 的 是 先 不 变 后 下 降 。 

图 21.23 是 对 每 个 个 体 显示 “stop1 ”变量 的 时 间 序 列 图 的 结果 。 


ee TT 
: sr i 去 一 


前 五 大 股东 的 持 股 比例 
日 旭 四 


em 人 em 
8 
和 Tn a 
Graphs by 上 市 急行 Graphs by 上 市 恨 行 
图 21.22 面板 数据 回归 分 析 结 果 11 图 21.23 面板 数据 回归 分 析 结 果 12 


从 图 21.23 可 以 看 出 ， 不 同 银行 的 第 一 大 股东 的 持 股 比 率 的 平方 的 时 间 趋 势 是 不 一 致 的 ， 
有 的 银行 是 持续 不 变 的 ， 有 的 是 先 上 升 后 下 降 ， 有 的 是 先 不 变 后 下 降 。 

图 21.24 是 以 roe 为 因 变量 ， 以 top1、top5、stopl 为 自 变 量 ， 并 使 用 以 “bank” 为 聚 类 变 
量 的 聚 类 稳健 标准 差 ， 进 行 固定 效应 回归 分 析 的 结果 。 
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+ xtreg roe topl top5 stopl,fe vcefcluster bank) 


Fixed-effects (within) regression Number of obs = 42 
Group variable: bank Number of groups = 14 
R-sq: within = 0.1698 Obs per group: min = 3 
between = 0.0028 avg = 3.0 
overall = 0.0241 max = 3 
F(3,13) = 363.38 

corr tu i, xh) = -0.7945 Prop > 了 = 0.0000 


(std. Err. adjusted for 14 clusters in bank) 


Robust 
roe Coef. Std. Err. t py>ltl [95% Conf. Interval] 
topl 9494066 。 .5814926 1.63 0.127  -.3068317 2.205645 
top5 | -.1757092 .1732424 -1.01 0.329  -.5499767 .1985583 
stopl -.698867 .4274474 -1.63 0.126 -1.622311 .224577 
_cons 4.626814 = 1.532067 3-02 0.010 1.316985 7.936644 
sigma u | 5.5670591 
sigma e | 5.3815613 
rho | .51693771 (fraction of variance due to u_1) 


图 21.24 面板 数据 回归 分 析 结 果 13 


从 图 21.24 中 可 以 看 到 共有 14 组 ， 每 组 3 个 ， 共 有 42 个 样本 参与 了 固定 效应 回归 分 析 。 
模型 的 F 值 是 363.38, 显著 性 P 值 为 0.0000, 模型 是 非常 显著 的 。 模 型 组 内 及 方 是 0.1698Cwithin 
= 0.1698)， 说 明 单位 内 解释 的 变化 比例 是 16.98%。 模型 组 间 R 方 是 0.0028 (within = 0.0028) ， 
说 明 单位 间 解 释 的 变化 比例 是 0.28%。 模 型 总 体 R 方 是 0.0241 (overall = 0.0241) ， 说 明 总 的 
解释 变化 比例 是 2.41%。 模 型 的 解释 能 力 不 够 良好 。 观 察 模 型 中 各 个 变量 系数 的 显著 性 P 值 ， 
发 现 也 都 是 比较 显著 的 。 此 外 观察 图 21.24 中 最 后 一 行 ，rho=0.51693771， 说 明 复合 扰动 项 的 
方差 也 有 一 部 分 属于 时 间 效 应 的 变动 ， 这 一 点 在 后 面 的 分 析 中 也 可 以 得 到 验证 。 

图 21.25 是 以 roe 为 因 变量 ， 以 top1、top5、stop1 为 自 变量 ， 进 行 固定 效应 回归 分 析 的 结果 。 


，xtreg roe topl top5 stopl,fe 

Fixed-effects (vithin) regression Number of obs = 42 

Group variable: bank Number of groups = 14 

R-sq: vithin = 0.1698 Cbs per group: min = 3 

Decween = 0.0028 avg = 3.0 

overall = 0.0241 max = 3 

F(3,25) = 1.70 

corr (ui, wh) = -0.7945 Prob > 下 = 0.1917 

roe Coef. Sed. Err. 5 p>ltl [95* Conf. Interval] 

copl | .9494066 .6397925 1.48 0.150  -.3682707 2.267084 

tops | -1757092 .2154388 = -0.82 0.422  -.6194136 .2679953 

aropl | -.698867 .6238427 -1.12 0.273 -1.983695 .5859612 

cons | 4.626814 3.563254 1.30 0.206 -2.711846 11.96547 
aigma_u | 5.5670591 
sigma e | 5.3815613 

rho | .51693771 (traction of variance due to u_1) 
Ftest chat all ui=0: Fl13, 25) = 0.61 Prob > F = 0.8264 


图 21.25 面板 数据 回归 分 析 结 果 14 


本 结果 相对 于 使 用 以 “bank ”为 聚 类 变量 的 聚 类 稳健 标准 差 进行 固定 效应 回归 分 析 的 结果 
在 变量 系数 显著 性 上 有 所 降低 。 此 外 , 在 图 21.25 的 最 下 面 一 行 , 可 以 看 到 “F test that all u_i=0: 


491 


让 


WAAAN \\\ 
\\ \ 
\ \\\ N \ 
\ pn 
\ AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA 


N\A 
NAN 
\\AANN\ NAN 
\ NN 
\ NN \ 
F(13, 25) = 0.61 Prob > F = 0.8264”， 即 显著 接受 了 各 个 样本 都 没有 自己 的 截 距 项 的 原 假设 ， 
所 以 可 以 初步 认为 每 个 个 体 可 以 共用 同一 个 截 距 项 ,也 就 是 说 固定 效应 模型 是 不 一 定 优 于 普通 
最 小 二 乘 回归 模型 的 。 这 一 点 也 在 后 续 的 深入 分 析 中 得 到 了 验证 。 
图 21.26 存储 的 是 固定 效应 回归 分 析 估 计 结 果 。 选 择 “Data”|“Data Editor”|“Data 
Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 到 如 图 21.26 所 示 的 变量 _est_fe 的 相关 数据 。 


stops stopio 
34292984 212.28062 


a a re er 


1 
2 6.20204 21.24062 
216.20204 2.20062 
4 62025 4,034 
5 S091.900 
6 8907 S108 
7 .006529 4.354404 
,0092 22.06144 
3 96 sas209 
30 9.07504 392.007 
4 ,09072 92,65988 
2 23 2.265249 
四 9 
449.04204 $1,52786 
590 $509 
a6 $225 14,428 
Gs025 38.74024 
0 .902s 40.26562 
299 
30 6.95792 34.27054 
a os72 -0076 
2 69043 98004 
3 59 ,52685 
24 .oos47e 
35 .7 
36 16.50797 
37 e972 
30 .1524 
29 .S8517 


Peppereeemeeeneeenewe|- 


0。 ,seoes4 


图 21.26 面板 数据 回归 分 析 结 果 15 


图 21.27 是 构建 最 小 二 乘虚 拟 变量 模型 来 分 析 固定 效应 模型 是 否 优 于 最 小 二 乘 回 归 分 析 
的 分 析 结果 。 


.xlsxtreg roe top! top5 stopl .benk,ree(cluster ban) 


banie Ipenk_ 1-14 {narurally coded: _Ibank_1 omrted) 
handom-ettects GUS reoression Number of ohs = 32 
oroup variable: bank Nuber of groupa ~ 14 
nog: vickin ~ 0.1698 oba pa group! win = 3 
becweea = 1.0000 avg = 3.0 
overall = 0.3960 wa = 3 

Vald shi2(3) a 

[eors tui, 2) ~ 0 (ossunedl Prob > chiz - 


(td, gcc. edjusted for 14 clusters ia bank) 


obucr 
roe coer， sca。 Err. 2 ple [9s* conr. Interval] 
rorl | .9494066 .T169122 1.32 0.183 ~.4337133 2.334329 
cp5 | -1757092 .2135876 -0.82 0444 。 -.5943332 .2429148 
stopi | -~.698667 .3269926 -1.33 -1.731733 .3340193 
Ioark 2 | -.805453 2.696805 -0.30 6.091094 。 4.480188 
roarks | 7.933511 1.8666924 -4.23 .274406 。 11.59262 
roark 4 | -3.336949 2.501829 。 -1.33 8.240443 1.566546 
roacks | -1411415 1.303035 -0.11 -2.696612 。 2.414329 
Doark es | 5.860433 2.71435 2.16 S404051 11.18046 
ma 2.12437 。 1.605233 = 1.32 -1.021829 。 5.270569 
Iankca 4.19578 。 2.357546 1.78 -4249251 。 和 .816485 
Troark 9 | 。 5.478392 2.373407 2.31 026444 10,13034 
Inank 10 | 3.177696 .54169%79 -58.07 3.920059 6.433322 
Toank 3 | 3.221478 1.573751 -2.05 -1369832 。 6.305972 
iank 2 | 。 3.533a89 .2991392 。 21.33 3.023655 。 6.041493 
Tank 1s | -9.806663 3.136047 -3.13 -15.9532 = -3.660124 
roany 14 | -9.739707 2.901101 。 -3.36 -15.44375 -4.073534 
eors | 3.507148 2.036352 1.72 4840296 -7.498325 
igen a 
ig e | 5.3015613 
rho 日 (fraction of varieree due to t3) 


图 21.27 面板 数据 回归 分 析 结 果 16 
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从 图 21.27 中 可 以 看 出 ， 大 多 数 个 体 虚拟 变量 的 显著 性 P 值 都 是 大 于 0.05 的 ， 所 以 可 以 
在 一 定 程度 上 认为 可 以 接受 “所 有 个 体 的 虚拟 变量 皆 为 0” 的 原 假设 ， 也 就 是 说 固定 效应 模型 
不 一 定 是 优 于 普通 最 小 二 乘 回归 模型 的 。 

图 21.28 是 创建 年 度 变量 的 多 个 虚拟 变量 的 结果 。 选 择 “Data”|“Data Editor”|“Data 
Editor(Browse) ”命令 ， 进入 数据 查看 界面 , 可 以 看 到 如 图 21.28 所 示 的 变量 t1~t3 的 相关 数据 。 


re 


日 


a 加 


oroorooroorooroorooroorooroors 


图 21.28 面板 数据 回归 分 析 结 果 17 
图 21.29 是 构建 双向 固定 效应 模型 的 分 析 结果 。 


Fixed-effects (within) regression Number of obs = 42 
Group variable: bank Number of groups = 14 
R-sq: within = 0.9510 Obs per group: min = 3 
betveen = 0.0759 avg = 3.0 
overall = 0.7115 max = 3 

F (5,13) = 219.32 

leorr (ui, xh) = -0.0135 Prob > 下 = 0.0000 


(Std. Err. adjusted for 14 clusters in bank) 


Robust 
roe Coef. Std. Err. 上 pylcl [95% Conf. Interval] 
topl .3322207 .2871586 1.16 0.268  -.2881478 .9525891 
top5 | -.0938745 .0713693 -1.32 0.211  -.2480585 .0603094 
atopl | -.2444363 .2394989 -1.02 0.326  -.7618421 .2729695 
52 | -4.864719 .4090549 -11.89 0.000 -5.748428 -3.981009 
r3 | -10.56468 .7177505 -14.72 0.000 -12.11528 -9.014072 
_cons 15.88513 1.244676 12.76 0.000 13.19617 18.57409 
sigma_u | 2.7877008 
aigma_e | 1.3631971 
rho | .80702108 (fraction of variance due to u_1) 


图 21.29 面板 数据 回归 分 析 结 果 18 
从 图 21.29 中 可 以 看 出 ， 全 部 虚拟 变量 的 显著 性 P 值 都 是 远 小 于 0.05 的 ， 所 以 可 以 初步 
认为 模型 中 应 该 包含 时 间 效 应 。 值 得 说 明 的 是 ， 在 构建 双向 固定 效应 模型 时 并 没有 把 tl 列 入 
进去 ， 这 是 因为 tl 被 视 为 基期 ， 也 就 是 模型 中 的 常数 项 。 
包含 时 间 效 应 项 的 模型 的 回归 方程 是 : 
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ROE=0.3322207 *top1l -0.2444363 *stop1-0.0938745*top5-4.864719*t2-10.56468*t3+15.88513 


可 以 看 出 stopl 前 面 的 系数 为 负 ， 说 明 中 国 上 市 银行 的 ROE 与 第 一 大 股东 持 股 量 之 间 存 
在 着 倒 “U” 型 关系 。 也、83 前 面 的 系数 显著 为 负 ， 而 且 t3 的 负 程 度 更 大 ， 说 明 随 着 时 间 的 推 
移 ， 净 资产 收益 率 是 不 断 下 降 的 。 

图 21.30 是 在 上 步 回归 的 基础 上 , 通过 测试 各 虚拟 变量 的 系数 联合 显著 性 来 检验 是 否 应 该 
在 模型 中 纳入 时 间 效 应 的 检验 结果 。 

从 图 21.30 中 可 以 看 出 ,各 变量 系数 的 联合 显著 性 是 非常 差 的 ， 即 强烈 拒绝 了 没有 时 间 效 
应 的 初始 假设 ， 所 以 ， 我 们 进一步 验证 了 模型 中 应 该 包含 时 间 效 应 项 的 结论 。 

图 21.31 是 以 roe 为 因 变 量 ， 以 top1、top5、stopl 为 自 变量 ， 并 使 用 以 “bank” 为 聚 类 变 
量 的 聚 类 稳健 标准 差 进行 随机 效应 回归 分 析 的 结果 。 


Random-effects GLS regression Number of obs = 42 
Group variable: bank Number of groups = 14 


R-sq: vithin = 0.0744 Obs per group: min = 3 
betveen = 0.5570 avg = 3.0 
overall = 0.2056 max = 3 


Wald chi2 (3) = 13.81 
corr(u i, X= 0 (assuned) Prob > chi2 = 0.0032 


(Std. Err. adjusted for 14 clusters in bank) 


| Robust 


roe Coef. Std. Err. Pp>lzl [95s Conf. Interval] 


rop5 | -.1944912 .0886654  - 0.028  -.3682723 。 -.0207101 
stopl | -.9541558 .3145051 -i 0.002 。 -1.570574 。 -.3377372 


. test t2 t3 topl .9265336 。 .3346691 0.006 .2705943 1.582473 
_cons 8.63665 1.236456 0.000 6.21324 11.06006 


(1 t2-0 
(2) ta3=-0 


sigma_u 9 
Fl 2, 13) = 116.05 sigma e | 5.3815613 
o 


i i rho (fraction of variance due to u_1) 


图 21.30 面板 数据 回归 分 析 结果 19 图 21.31 面板 数据 回归 分 析 结 果 20 
从 图 21.31 可 以 看 出 , 随机 效应 回归 分 析 的 结果 相 比 固定 效应 回归 分 析 在 变量 的 显著 性 水 
平 上 得 到 了 大 幅度 的 提高 ， 变 量 系数 显著 性 变 得 非常 好 。 


图 21.32 是 在 上 步 回归 的 基础 上 , 进行 假设 检验 来 判断 随机 效应 模型 是 否 优 于 最 小 二 乘 
归 模 型 的 结果 。 


回 


xttesto 
Breusch and Pagan Lagrangian multiplier teat for random effects 
roelbank,t] = Xb + ufbank] + efbank,t] 


Estimated results: 
Var sd = sqrttyar) 


roe 29.23566 5.407001 
ee 28.9612 5.381561 
u o o 


Test: Varlw = 0 


chibar2101) = 0.00 
Prob > chibar2 = 1.0000 


图 21.32 面板 数据 回归 分 析 结果 21 
从 图 21.32 可 以 看 出 , 假设 检验 非常 显著 地 接受 了 不 存在 个 体 随机 效应 的 原 假设 , 也 就 是 
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说 ， 随 机 效应 模型 并 不 优 于 普通 最 小 二 乘 回 归 分 析 模 型 。 

图 21.33 是 以 roe 为 因 变 量 ， 以 top1、top5、stop1l 为 自 变 量 ， 并 使 用 最 大 似 然 估计 方法 ， 
进行 随机 效应 回归 分 析 的 结果 。 

从 图 21.33 可 以 看 出 , 使 用 最 大 似 然 估计 方法 的 随机 效应 回归 分 析 的 结果 与 使 用 以 “bank” 
为 聚 类 变量 的 聚 类 稳健 标准 差 的 随机 效应 回归 分 析 的 结果 大 同 小 异 , 只 是 部 分 变量 的 显著 性 水 
平 得 到 了 进一步 的 提高 。 


. xtreg roe topl top5 stopl,mle 


Fitting constant-only model: 

Iteration 0: log likelihood = -130.15836 
Iteration 1: log likelihood = -129.97609 
Iteration 2: log likelihood = -129.97255 
Iteration 3; log likelihood = -129.97254 


Fitting full model: 
Iteration 0: log likelihood = -125.23952 
Iteration 1: log likelihood = -125.1399 
Iteration 2: log likelihood = -125.13777 
Iteration 3: log likelihood = -125.13777 


Random-effects ML regression Number of obs = 42 
Group variable: bank Number of groups = 14 
Random effects ui ~ Gaussian Obs per group: min = 3 
avg = 3.0 
max = 3 
LR chi2 (3) = 9.67 
Log likelihood = -125.13777 Prob > chi2 = 0.0216 
roe Coef. Std. Err. z Pp>lzl [95% Conf. Interval] 
topl .9265336 = .305735 3.03 0.002 .3273041 = 1.525763 
top5 | -.1944912 .0895381 -2.17 0.030  -.3699826 
stopl | -,9541558 .2909105 -3.28 0.001 -1.52433 
_cona 8.63665 1.618902 5.33 0.000 5.463659 11.80964 
/sigma_u 0 .9961573 . 
/sigma e 4.761354 .5195063 3.84465 = 5.896634 
rho 0 (omitted) 
Likelihood-ratio test of sigma uO0: chibar2(01)= 0.00 Prob>=chibar2 = 1.000 


图 21.33 面板 数据 回归 分 析 结 果 22 


图 21.34 是 以 roe 为 因 变量 ， 以 top1、top5、stop1l 为 自 变量 ， 并 使 用 组 间 估 计量 ， 进 行 组 
间 估 计量 回归 分 析 的 结果 。 


treg roe topl top5 stopl,be 
etveen regression (regression on group means) Nuber of obs = 2 
roup varieble: bank Nuber of growps = 14 
sq: vithin = 0.0473 Obs per group: min = 3 
betveen = 0.5969 avg = 3.0 
overall = 0.1936 max = 3 
03,10) = 4.94 

afui + avgte ii.))= 2.094773 Prob > 了 = 0.0235 
roe Coef. Std. Err. t Pltl [95s Conf. Intervall 

tont | -9784151 .2792579 3.50 0.006 .3562008 1.600629 

tops | -2311831 .0800543 -2.89 0.016 =-.4095552  -.0528109 

stopt | -.9888918 .2651622 -3.73 0.004 -1.57971 。 -.3980737 
eons | 9.495548 1.375315 6.90 0.000 6.431154 。 12.55994 


图 21.34 面板 数据 回归 分 析 结 果 23 
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、、 


详解 (第 2 版 ) 


WANN 


,| 


从 图 21.34 可 以 看 出 ,使 用 组 间 估 计量 进行 回归 分 析 的 结果 与 固定 效应 模型 、 随 机 效应 模 
型 在 模型 的 解释 能 力 以 及 变量 系数 的 显著 性 上 都 大 同 小 异 。 
图 21.35 是 以 roe 为 因 变 量 ， 以 top1、top5、stopl 为 自 变量 ， 进 行 随机 效应 回归 分 析 的 结 


果 。 


对 该 回归 分 析 结 果 的 详细 解读 在 前 面 也 多 次 讲述 ， 此 处 不 再 重复 讲解 。 


.xtreg roe topl top5 stopl,re 
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andom -cszccea OLS regresoion Naber of bo 4 

roup variable: bank umber of groups = 14 

sq: within = 0.0744 Ops per group: min = 3 

betueen = 0.5570 avg = 3.0 

overall = 0.2056 ax = 3 

Vald chiz (3) = 9 

orr (ei, 四。 = 0 taaaameal prop > ehi2 = .900 

roe Coes. sra。 Erc, 2 pzlzl [9ss Conr. Incerval] 

ropl | .9265336 .3214238 2.88 0.004 ~ .2965546 。 1.556513 

tops | -1944912 .9941327 -2.07 0.039 -.378988 ~,0099945 

aropl | -.9541558 .3058385 -3.12 0.002 。 -1.553588 。 -3547233 

cons 8.63665 1.701975 5.07 0.000 5.300837 11.97246 
sigma_u o 
iemo_e | 5.3015613 

he 日 (sraction of variance due co ui1) 


图 21.35 面板 数据 回归 分 析 结 果 24 


图 21.36 存储 的 是 随机 效应 回归 分 析 估 计 结 果 。 选 择 “Data”| “Data Editor”|“Data 
Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 到 如 图 21.36 所 示 的 变量 _est_re 的 相关 数据 。 


seops sreplg 
1 6.29z84 27.24002 
了 .11204 11.20002 
3 0.204 43,20062 
4 .G2025 91,40749 
5 5807 91.3601 
§ .S407 91.3601 
了 006529 41,954404 
11.00912 22.06181 
3 .ia96 .998209 
10 89.07s84 32.62117 
1 9,09472 94.0590 
529 3.265249 
加 547997 
到 9.04201 5.52986 
下 0 
4 
025 18.74024 
1 .380025 10.26562 
9 9 
20 16.95792 34,27054 
a S72 .0076 
2 59041 398001 
2 .87s30 14.s2605 
34 005476 ,040609 
2 076 19.0969 
26 16.50797 11.24204 
7 921 .057 
2 .75249 7.263025 
2 7584517 11.58041 
10 S00644 1.920996 


Lescfe 时 


中 


9 re 


| 


21.36 面板 数据 回归 分 析 结 果 25 
图 21.37 是 进行 豪 斯 曼 检 验 的 结果 。 


豪 


、 


.9265336 


21.37 面板 数据 回归 分 析 结果 26 


斯 曼 检验 的 原 假设 是 使 用 随机 效应 模型 。 图 21.37 显示 的 显著 性 P 值 (Prob>chi2 


=0.2780) 远 远 大 于 5%， 所 以 我 们 接受 初始 假设 ， 认 为 使 用 随机 效应 模型 是 更 为 合理 的 。 
综 上 所 述 ， 我 们 应 该 构建 随机 效应 模型 或 者 使 用 普通 最 小 二 乘 回归 分 析 方法 来 描述 变量 


之 间 的 


从 
数 都 是 
的 净 资 


产 


回归 关系 。 
21.4 研究 结论 
前 面 的 分 析 中 可 以 看 出 ， 不 论 是 随机 效应 模型 还 是 普通 最 小 二 乘 回归 模型 ，topl 的 系 


大 于 0 的 值 ， 并 且 stopl 的 系数 都 是 小 于 0 的 值 ， 所 以 可 以 得 出 最 后 的 结论 :上 市 银行 
产 收益 率 和 股权 集中 度 之 间 是 一 种 倒 “U” 型 关系 。 
生 上 述 结果 的 原因 可 以 从 以 下 两 方面 来 解释 。 


对 倒 “U” 型 上 升 阶段 的 解释 : 上 市 银行 的 主要 特征 是 所 有 权 和 经 营 权 分 离 ， 因 此 必 
然 会 产生 委托 代理 问题 。 由 于 存在 信息 不 对 称 和 代理 人 的 道德 风险 等 问题 ， 股 东 作为 
委托 人 必须 对 代理 人 进行 有 效 的 监督 管理 和 激励 约束 才能 促进 银行 绩效 的 提高 , 但 如 
果 上 市 银行 的 股权 过 分 分 散 ， 必 然 使 股东 们 “搭便 车 ”的 心态 严重 ， 不 愿 对 上 市 银行 
治理 进行 改进 而 影响 银行 绩效 。 如 果 存 在 持 股 比例 较 大 的 股东 ， 一 方面 ， 他 有 能 力 获 
取 公司 发 展 的 最 新 信息 ， 信 息 不 对 称 相对 不 严重 ， 对 管理 层 的 监督 成 本 相对 较 低 ， 使 
他 容易 解决 好 委托 代理 问题 另 一 方面 ， 由 于 持 股 比例 较 大 ， 股 权 流 动 相对 较 难 ， 控 
股 股东 对 公司 经 营 和 长 期 发 展 往往 比较 关心 , 有 动力 将 公司 经 营 好 ,选拔 优秀 管理 人 
才 ， 对 管理 层 进行 较 有 效 的 激励 约束 ， 甚 至 直接 向 上 市 公司 注入 优质 资产 进行 支持 。 
这 些 都 有 助 于 上 市 公司 绩效 的 提高 。 

对 倒 “U” 型 下 降 阶 段 的 解释 : 一 方面 ， 在 十 几 家 上 市 银行 中 ， 第 一 大 股东 持 股 量 很 
多 都 是 国家 控股 的 ， 而 国有 银行 还 没有 完全 实现 机 制 的 转换 ， 没 有 真正 地 把 国有 资产 
置 于 投资 者 的 监督 之 下 ， 国 有 银行 的 低 效率 残余 还 很 浓厚 ; 另 一 方面 ， 由 于 我 国法 制 
的 不 健全 ,我 国 证 券 市 场 上 绝对 控股 的 大 股东 的 存在 会 导致 大 股东 控制 上 市 银行 、 操 
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纵 上 市 银行 利润 、 占 用 上 市 银行 资产 等 一 系列 现象 。 股 权 制 衡 能 有 效 抑 制 大 股东 的 恶 
性 关联 交易 行为 ， 提 高 银行 的 绩效 。 


21.5 ”本 章 习 题 


饮料 行业 的 人 士 普 遍 认为 ， 成 功 经 营 饮料 公司 最 关键 的 环节 在 于 销售 ， 所 以 销售 策略 的 
思考 与 选择 问题 历来 是 市 场 专 家 研究 的 焦点 。 其 间 一 个 非常 重要 的 问题 是 : 饮料 公司 的 利润 与 
其 销售 集中 度 之 间 是 否 存 在 一 定 的 相关 性 ? 某 调 研 者 选取 了 10 家 饮料 公司 在 2008 一 2010 年 的 
有 关 数 据 作为 观测 样本 进行 研究 ， 如 表 21.2 所 示 。 请 读者 帮助 该 调研 者 构建 恰当 模型 描述 饮 
料 公司 的 利润 与 其 销售 集中 度 之 间 的 合理 关系 。 


表 21.2 10 家 饮料 公司 的 销售 数据 (2008 一 2010 年 ) 


饮料 公司 


: | 中 | 到 | 下 |>|>|> 


二 | 一 | 一 | 一 | 一 | 一 
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第 一 大 销售 商 的 。 | 前 五 大 销售 商 的 。 | 前 十 大 销售 商 的 | 利润 。 | 对 间 人 代 表 2998 
销售 量 /万 瓶 。。 | 销售 量 万 瓶 。 | 销售 量 /万 着 。 “| /万 元 。 | 全. 2 代 表 2009 年 ， 
655 ! 
1676 2 
162 3 
245 Iss |» js | 
108 [2 em ss | 
029 on hs |46 | 
| 
67.49 ! 
67.49 2 
60749 3 
23 ! 
233 2 
023 3 


第 22 章 Stata 在 农业 中 的 应 用 


农业 是 国民 经 济 的 习 


EE 要 组 成 部 分 ， 以 生产 和 加 工农 产品 为 主 。 通 常情 况 下 ， 农 业 又 被 更 


加 详细 地 划分 为 种 植 业 、 水 产业 、 渔 业 、 林 业 、 畜 牧 业 、 副 业 等 。 作 为 第 一 产业 ， 农 业 对 于 整 
体 国民 经 济 起 着 无 可 蔡 代 的 基本 作用 和 保障 作用 。 而 专家 学 者 们 关于 农业 的 研究 也 是 非常 多 
的 , 很 多 情况 下 会 进行 定量 分 析 以 获得 更 加 有 说 服 力 的 结论 , 其 间 必 然 涉 及 对 大 量 数据 的 专业 
统计 分 析 。Stata 作为 一 种 优秀 的 计量 统计 分 析 软 件 ， 深 受 农业 研究 者 的 喜爱 ， 是 他 们 最 常 使 


用 的 软件 之 


-。 下 面 就 以 实例 的 方式 来 介绍 一 下 Stata 在 农业 中 的 应 用 。 


22.1 ”研究 背景 


根据 《中 华人 民 共 和 国 年 鉴 2012》 提 供 的 数据 ( 表 22.1) 可 以 发 现 ， 无 论 是 农 、 林 、 牧 、 
渔业 总 产值 还 是 农业 、 林 业 、 牧 业 、 渔 业 的 分 项 产值 都 呈现 出 持续 快速 增长 趋势 。 


表 22.1 我 国 历年 农 、 林 、 牧 、 渔 业 总 产值 及 分 项 产值 数据 (单位: 亿 元 ) 


年 份 农 、 林 、 牧 、 渔 业 总 产值 农业 林业 牧 业 渔业 
1978 1397.0 48.1 209.3 22.1 
1980 1922.6 81.4 354.2 32.9 
1985 | 3619.5 188.7 798.3 126.1 
1990 |7662.1 330.3 1967.0 410.6 
1991 8157.0 367.9 21592 483.5 
1992 9084.7 422.6 2460.5 613.5 
1993 10 995.5 494.0 3014.4 882.0 
1994 15 750.5 611.1 4672.0 1298.2 
1995 | 20340.9 11 884.6 709.9 6045.0 1701.3 
1996 | 22353.7 13 539.8 778.0 6015.5 2020.4 
1997 | 23 788.4 13 852.5 817.8 6835.4 2282.7 
1998 | 24541.9 14241.9 851.3 7025.8 2422.9 
1999 | 24519.1 141062 886.3 6997.6 2529.0 
2000 | 24915.8 13 873.6 936.5 7393.1 2712.6 
2001 |26179.6 14462.8 938.8 7963.1 2815.0 
2002 | 27390.8 14931.5 1033.5 8454.6 2971.1 
2003 |296918 14 870.1 12399 9538.8 3137.6 
2004 | 36239.0 18 138.4 1327.1 12 173.8 3605.6 
2005 | 39450.9 19613.4 1425.5 13 310.8 4016.1 
2006 | 40810.8 21 522.3 16108 12 083.9 3970.5 
2007 | 48 893.0 1861.6 16 124.9 4457.5 
2008 | 580022 28 044.2 21529 20 583.6 5203.4 


\\\ 
\ \\ 
\WN 
\ \ 


农 、 林 、 牧 、 渔 业 总 产值 
60361.0 
69319.8 
81303.9 


30777.5 
36941.1 
41 988.6 


19 468.4 
20 825.7 
25 770.7 


2010 
2011 


在 这 种 大 背景 下 对 我 国 目前 的 农业 进行 研究 ， 不 论 是 对 于 促进 我 国 农业 又 好 又 快 地 发 展 ， 还 
是 对 于 充分 发 挥 农业 对 于 发 展 国民 经 济 和 改善 居民 生活 的 作用 ， 都 有 着 极为 重要 的 意义 。 


22.2 ”研究 方法 


按照 我 国 目前 官方 统计 口径 ， 农 产品 产量 主要 体现 在 “粮食 产量 ”“ 棉 花 产量 ”“ 油 料 
产量 ”“ 麻 类 产量 ”“ 甘 蔗 产 量 ” “甜菜 产 量 ”“ 烟 叶 产 量 ”“ 茶 叶 产 量 ”“ 水 果 产 量 ” 等 ， 
其 中 粮食 产量 又 体现 在 “稻谷 ” “小 麦 ” “玉米 ”“ 豆 类 ”“ 昔 类 ”等 作物 的 产量 ， 水 果 产 量 
又 体现 在 “苹果 ”“ 柑 桔 ”“ 梨 ” “葡萄 ”“ 香 琵 ” 等 作物 的 产量 ， 油 料 作物 又 体现 在 “花生 ” 
“油菜 籽 ” “芝麻 ”等 作物 的 产量 ， 所 以 我 们 在 进行 分 析 研 究 的 时 候 ， 考 虑 的 关于 农产品 的 变 
量 也 与 这 些 叙述 相 吻 合 。 

本 例 采 用 的 数据 为 我 国 各 省 市 2011 年 农产品 的 相关 数据 ， 包 括 “ 农 业 总 产值 ”“ 粮 食 产 
量 ” “棉花 产量 ” “油料 产量 ”“ 麻 类 产量 ” “甘蔗 产 量 ”“ 甜 菜 产 量 ” “烟叶 产量 ”“ 茶 叶 
产量 ” “水 果 产 量 ” “谷物 ” “稻谷 ” “小麦 ” “玉米 ”“ 豆 类 ”“ 昔 类 ”“ 花 生 ”“ 油 菜 籽 ” 
“芝麻 ”“ 黄 红 麻 ”“ 烤 烟 ”“ 苹 果 ”“ 柑 村 ”“ 梨 ”“ 葡 萄 ”“ 香 花 ”“ 谷 物 单位 面积 产量 ” 
“棉花 单位 面积 产量 ”“ 花 生 单位 面积 产量 ”“ 油 菜 籽 单位 面积 产量 ”“ 芝 麻 单 位 面积 产量 ” 
“ 黄 红 麻 单 位 面积 产量 ”“ 甘 蕉 单位 面积 产量 ”“ 烤 烟 单位 面积 产量 ”“ 受 灾 面 积 ( 千 公顷 ) ” 
“成 灾 面 积 〔 千 公顷 ) ”“ 甜 菜单 位 面积 产量 ”等 。 数 据 都 摘编 自 《 中 国 统计 年 鉴 2012》。 

采用 的 数据 分 析 方 法 主要 有 描述 性 分 析 、 相 关 分 析 、 回 归 分 析 、 因 子 分 析 、 聚 类 分 析 等 。 

基本 思路 是 : 首先 使 用 描述 性 分 析 来 描述 各 个 变量 之 间 的 基本 特征 ， 为 后 面 的 分 析 做 好 
基础 ， 然 后 使 用 相关 分 析 、 回 归 分 析 等 研究 农业 总 产值 与 主要 农产品 的 产量 、 单 位 面积 产量 ， 
以 及 粮食 产品 的 组 成 部 分 、 水 果 产 品 的 组 成 部 分 、 油 料 作物 的 组 成 部 分 之 间 的 关系 ; 再 使 用 因 
子 分 析 对 主要 农产品 的 产量 、 单位 面积 产量 等 变量 提取 公 因 子 ; 最 后 使 用 聚 类 分 析 依照 粮食 产 
品 的 组 成 部 分 、 水 果 产 品 的 组 成 部 分 、 油 料 作物 的 组 成 部 分 对 各 个 省 市 进行 聚 类 , 研究 各 个 省 
市 的 农产品 产 出 特点 。 


22.3 ”数据 整理 


B= 下 载 资源 \video\chap22\… 


全 下 载 资源 :\samplevchap22\ 案 例 22.dta 
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因为 本 例 采 用 的 是 现 有 数据 ， 所 以 根据 第 1 章 介 绍 的 方法 直接 将 所 用 数据 录入 Stata 中 即 
可 。 我 们 共 设 置 了 38 个 变量 , 分 别 是 “城市 ”“ 农 业 总 产值 ”“ 粮 食 产 量 ”“ 棉 花 产 量 ”“ 油 
料 产量 ”“ 麻 类 产量 ” “甘蔗 产量 ” “甜菜 产量 ” “烟叶 产量 ” “茶叶 产量 ” “水 果 产 量 ”“ 谷 
物 ” “稻谷 ” “小 麦 ” “玉米 ”“ 豆 类 ”“ 昔 类” “花生 ”“ 油 菜 籽 ”“ 芝 麻 ”“ 黄 红 麻 ”“ 烤 
烟 ”“ 革 果 ”“ 柑 桔 ”“ 梨 ”“ 葡 萄 ”“ 香 车”“ 谷 物 单位 面积 产量 ”“ 棉 花 单位 面积 产量 ” 
“花生 单位 面积 产量 ”“ 油 菜 籽 单位 面积 产量 ”“ 芝 麻 单 位 面积 产量 ”“ 黄 红 麻 单位 面积 产量 ” 
“甘蔗 单位 面积 产量 ” “烤烟 单位 面积 产 2 “受灾 面积 ( 千 公 硕 ) ”“ 成 灾 面积 〈 千 公顷 ) ” 
“甜菜 单位 面积 产量 ”等 。 下 面 把 这 38 个 变量 分 别 定义 为 VI~V38， 并 分 别 给 这 些 变量 加 上 
标签 说 明 。 样本 是 我 国 分 地 区 主要 农产品 产量 情况 的 相关 数据 . 录入 完成 后 数据 如 图 22.1 所 


不 。 


oa Edior (Edi0 - 2710) 0— 页 而 =- 
Fle Edit View Data Tools 


EE]?.JEE 入 辣 
var6[7] 9 


图 22.1 录入 数据 
先 做 一 下 数据 保存 ， 然 后 展开 后 续 分 析 。 


22.4 ”描述 性 分 析 


本 案例 的 数据 变量 除了 城市 这 一 字符 串 变 量 外 都 是 定 距 变量 ， 通 过 进行 定 距 变量 的 基本 
描述 性 统计 ， 可 以 得 到 数据 的 概要 统计 指标 ,包括 平均 值 、 最 大 值 、 最 小 值 、 标 准 差 、 百 分 位 
数 、 中 位 数 、 偏 度 系数 和 峰 度 系数 等 。 通过 获得 这 些 指标 ,可 以 从 整体 上 对 拟 分 析 的 数据 进行 
宏观 把 握 ， 为 后 续 进行 更 深入 的 数据 分 析 做 好 必要 准备 。 


22.4.1 stata 分 析 过 程 


描述 性 分 析 的 步骤 如 下 : 


进入 Stata 14.0， 打 开 相 关 数 据 文件 ， 弹 出 主 界面 。 
在 主 界面 的 “Command” 文 本 框 中 输入 命令 : 


summarize var2-var38,detail 
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园 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 22.2~ 图 22.20 所 示 的 分 析 结果 。 


Si 


农业 名 产值 棉花 产 骂 

Tercsncilea Smalleat Perceatiles Snallest 

1 0 30 3 o o 

5 103 103 ss o o 
0% 165 163 Ops 31 | lo o o ops 31 
ss 555 165 Sum of Wge. at | |zs: o o Sum of mr， 31 
sos 1136 Hean 1354.452 | |sos 1.2 yean 21.25161 
Largest Std. Dev. 1010.276 Largeat sta. Dev. 54.03795 

oss 2042 2641 ss 22.7 52.6 
oo* 2641 2775 Variance 1020658 | |so* 32.6 65.3 yaclance 2920.1 
ess 3600 3600 Skewness .754426 | |ss* 78.5 8.5 Skeuness 4.188291 
eo 3844 3844 Rareomia 2.939796 | |ss* 289.8 289.8 Kurtosis 21.08711 

粮食 产 至 油 衬 产量 

reantiles Percentiles Smallest 

1 93, 区 7 要 

5 103.4 5 1.6 1.4 
10% 122 Obs a | |:o* .4 1.9 obs 31 
ss 672.8 Bum of Wgt. 31 | |:s 23.3 We Sum of Wot. 31 
sos 1361 Hean 1842.613 | | so* 63.9 106.5839 
Targear Srd。 Dev 1545.331 Largeat 121.114 

ss 3195.5 3307.9 ss 141.8 278.4 
os 3307,8 4426.3 Variance 2368048 304.7 14668.6 
ss 5542.5 2.5 Skewnesa .8765954 341 1.832705 
eo 5570.6 5570.6 Kurronis 3.05907 532.4 ER 6.307122 


22.2 V2 和 V3 描述 性 分 析 结 果 图 图 22.3 V4 和 V5 描述 性 分 析 结 果 图 


醒 药 产量 
Percentiles Percentiles Smallest 
o 0 o 
o a 0 
o obs 31 0 o cos 31 
o Sun of War. 31 日 o Sum of Wg 31 
Hean .9516129 0 Mean 34.61613 
Largest Std. Dev. 1.583639 Largest Scd. Dev. 105.9206 
2.9 7.8 46.5 
2 Variance 2.507914 4a6.5 157.7 Variance 11219.17 
a Skewness 1.815864 275 275 Skesness 3.661075 
6.1 Eurtosis 5.469598 319 a19 Kurcos1s 16.09033 
姻 叶 产生 
Percentiles Smallest Percentiles smallest 
o o 日 o 
o o 0 o 
o o obs 31 0 o cbs 31 
o o Sun of bat. 31 2 o Sum of dg. 31 
1 ean 369.1452 a Nean 10.10323 
Largest Std. Dev. 1345.931 Largeat sed. Dev. 20.07103 
387.8 .4 24.9 
1390 Varianoe 1911531 24.9 29.2 Variance 402.8463 
1898.8 Skewness 615133 34.3 34.3 Skewness 3.705151 
7270 Eurtosis 23.87672 105.6 105.6 Furcosis 17.80197 


图 22.4 V6 和 V7 描述 性 分 析 结 果 图 图 22.5 V8 和 V9 描述 性 分 析 结 果 图 
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NAN\NN 
NAAN \\\\ 
茶叶 产量 谷物 
Pocoentiles smalleat i 
o 日 539.4 
四 o 日 91 
10% 日 o ws 1 19.3 cps a 
25s a o Sum of War 1 119.6 Sum of at, 31 
ss 1 hn 5.235484 i 1675.468 
Largest sea aev。 -8-090717 Largess sca. Dev。 1449.734 
ss 1 i 
am 1 10,6 Variance 65.4597 0.9 Yarianee 9101797 
= 23.0 2 Sowness 1.62716 4858.2 Semess .8734846 
ses 29.6 23.6 uccosla 3690942 3 guccosla 2.956591 
水 果 产 量 
peroentiles soallest 
四 1.4 34 
5 44 是 
10% 0 62.6 os a oa 了 
:= 2a7.3 um or Wot. 1 sum of Woe. a 
ES S11.9 Hean 734.4581 mean aa .39a5 
Largest ged Dev. 677.8977 argear Sed. Dev. 747 9334 
ass ka 了 5a7 1 
sos 1587 1 1719.2 Varianee 59545.3 Varianoe 559404.4 
oss 814 814 eaoneaa 1.492579 Skeaneaa 11.096282 
aa 2959 2959 aceaaia S5004141 Kucrosls 2.923572 


小 麦 豆 类 
Smelleac Fercentiles snal 
1.2 
1.5 

31 和 2.3 aba 31 
um of Vgt. 31 18.2 Sum of Wat, 31 
an 378.7129 34.5 rean 61.96492 
Seq. Dev. 704.2960 Largesr Sta. ev. 104.6299 

52.8 9 
Variance 495036.0 115 125.7 Varlance 10947.41 
Skevness 2.3714964 174.3 2171.3 skewness 4.069573 
Kurcosis .303133 3577. Kurcosls 20 .49131 

豆 类 

Percentiles Smallesc Percentiles spallest 

2.8 2.8 a 

2.8 2.8 -6 .6 
10.5 10.3 31 二 生 EC co a 
38.9 10.5 31 36.9 1.3 Sum of Voc, a 
257 621 .8743 67.8 Bean 105.5871 
Large: 763.8649 Largeat gtd. Dev. 99,34263 

54.6 228.9 
1696.5 583489.5 239.3 Variance 9868.958 
2339 1.326719 284.2 Skevness 1.467716 
2675.8 3.544054 441.7 Furcosis 5.376823 


花生 艺 晓 

pareentiles Smallest percenrlles Smallesr 

1 日 日 o o 

ss a 0 日 o 
os 2 o cbs 31 o o c= a1 
[ss 1.3 EE Sun of Vat. 31 日 a Sum of Ugt 31 
eos 8 Hean 51.75806 ean 2958065 
bargest Sea, Dev. 96.52077 Lergest Sea Dev. #967077 

ss 116.5 3.2 
[os 920.9 9316.26 6.2 Variance 24.67105 
[ss aa8.6 3kewaess 2.002032 14.6 Shane: 3.54694 
eo: 429.8 Kurcoots 10.85243 24.1 Furtosis 15,0701 

油菜 闻 黄 红 麻 

Percentiles Smalleat, Percenclles smalleac 

办 上 o o 

5 o a o o 
10s 日 日 cos 31 o o os a1 
lss 6 a Sm of Vat. 31 o o sum or war. 31 
[os 15.2 tan 43.30643 o mean 2387097 
Largeat Sed, Dev. 63.45000 Lergs=- sed. Dev. 159565 

[ss 66.7 22 1 a 
lo 122.8 182 Vaclance 4026.928 2 了 Variance 665785 
ss 214.4 214.4 1.709071 .4 .4 Skewness 295561 
Es: 920 .4 am 4 018908 3.3 2.3 Ear 21.33012 


图 22.10 V18 和 V19 描述 性 分 析 结 果 图 


图 22.11 


V20 和 V21 描述 性 分 析 结 果 图 
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利 档 
pereeaeilea peceenrtles Smallest 
。 o 
o o o 
0 a , a 1 
o 旺 。 日 sm of gge, 3 
RO 3.9 Dean gu.96452 
Largeat sea aev， 19.31317 Taroesc sd pev. 148.433 
23.3 9 355 
292 variaace 372.9906 335 aa6.7 veriance 22032,36 
33.5 eness 3.700908 378.7 0.7 Sewnese 1,149376 
101.0 uceosta 10.3147 420.4 420.4 uccoals 3.53378 
苹果 型 
Perceatlles smallesc enrllea smellest 
o o o o 
o o , 日 
o 0 2 .9 带 os 31 
o a ns 9 Sum of mr。 了 1 
116.0774 2 Nean S095161 
bargeat scd aev， 230.0123 bergest sea pev， 77.05201 
3 100-5 
variance 9274.47 100.5 122.7 Variance 39397,012 
Skemess oo 241132 0 3 aa0 3。 sheaneaa 3.353506 
aaceoats B374 406.9 06.9 Furtosls 15.0474 


22.12 


V22 和 V23 描述 性 分 析 结果 图 


确 血 谷物 单位 面积 产 呈 
pereentilea smalleac lee 
o 日 3365.7 
5 o o 3735.9 
ho o o cba 1 NS 四 
js .2 9 Su of Vgt. 3 3 31 
eos 4 Hean 29.24194 i 5525.152 
Largesr Srd- bev 38.6349 Largeat Sta, Dev. 997. 
ss 36o4 07.3 
es 67.3 8 Varinnee 1492.655 variance 994952.9 
ss 112.5 112.5 Sevaess 2.291274 skewness .4261357 
pes 195.5 175.5 Furconts .297456 urcoase 2.653743 
否 岁 棉 在 单位 面积 产生 
Percentile Peccentiles egallest 
o 
o 
日 ca 1 opa a 
o Sm of Uae. 31 Sum oz War。 a 
四 o Hean 33.54516 Neon 1013.026 
Taroeac Seq. Dev, B705610 Largeee Sted, Dev, 610.7311 
160.7 1769 
189.2 Varianee 7580,519 L123 varinnce aas 5 
205.7 kewneaa 2.767296 1921.8 Sheuness 4542562 
084.9 Wartonis 10.21758 1940.3 Eureoaiz 2.212110 


花生 单位 而 积 产 量 
Percentiles Smallect 
1 o o 
四 o o pad 
0% 1559.2 14a7.8 EE 于 pb a 本 hs eed 
2 2426.4 1999.2 Sn cr Woe a1 py S569 A Mn of Wes 对 
sos 2711.9 Mean 2704.184 ny ee ep 
Wie 0 SR argest srq, bev, 9655 
ss 3550.2 3767.0 5 1430.5 1665.6 
hs i de Pn Pp 0s 1665.6 1667.6 Yariance 235191.5 
ss 4252.9 4252.9 Skevress -8423184 Ss 1701.6 Skewe: 9919902 
go% 4464.9 4464.9 Furtcoio 4.183686 9 1906.7 1906.7 Kurtosis 3.656506 
泊 荣 闻 单 位 面积 产 骂 黄 红 麻 单 位 面积 产 苦 
Percentiles spalles smallest 
过 o o o 
ss o o ss o o 
10% 150 o = 31 os o 日 obs 31 
ss 1181.3 150 Sun of ae. a 5 o o am of Wat. 31 
sos 886.8 ea 1605.952 eos 6566.7 ean am .513 
Largesr Sta. Dev. 760.2736 bargeat Sed, Dev. 2157.737 
2142.9 aa ss 33275 a600 
eos 2389 2329.4 Yarience 3780193.9 os 600 5352.8 Yariance 4655826 
ss 2574.5 2574.3 skewness .5912475 Ss e700 e700 sevness .9812369 
sss 2645.3 2645.3 Kurtosis 2.961097 os 6846.7 046.7 arrosas 2.676838 
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22.17 V32 和 V33 描述 性 分 析 结 果 


NAN AN 
第 22 章 ”Stata 在 农业 中 的 应 用 
\\ WA 


a 

pe 受灾 面积 (二 公顷 ) 

2 。 om。 3 

ao aa 29647.03 I 

Ea 64082.4 66599.2 Variance 8.65e+08 a ed 

EE 67398.2 67398.2 Skewness .2034883 hr pt 

lg 86735.8 86735.8 Kurtosis 1.493109 Woetonts L902 

烤 间 单位 面积 产 坚 成 灾 面 积 ( 干 公顷 ) 
Fercentiles Smalleat Mis is 

os o o cba 31 由 - Obs 31 

|25% 714.3 o Sm of Wot. 31 出 Sun of WE 31 

15o* 2110.9 Nean 1885.842 本 et ese 
Largeac Std. Dev, 1289.332 Std, Dev. 337.7479 

ys az 3310 

13os 3310 3428.4 Variance 1662377 Se Wai td 

| 95* 4120 4120 Skewness ,0630109 Skewness +863995 

EE 5064.3 5064.3 Kurtosis 2.857195 a Kuctosis 3.27764 


22.18 ”V34 和 V35 描述 性 分 析 结果 图 22.19 ”V36 和 V37 描述 性 分 析 结果 图 


Percentiles 
o 
o 
o 31 
o Sum or war. 31 


o Mean 12397.35 
Largest std. Dev. 20248.22 

32481.8 40221.8 

40221.8 44482 Yariance 4.10e+08 

57815.9 57815.9 Skevness 1.377929 

68799.7 68799.7 Kurtosis 3.615326 


图 22.20 V38 描述 性 分 析 结果 图 


从 图 22.2~ 图 22.20 所 示 的 分 析 结 果 中 可 以 得 到 很 多 信息 。 此 处 限于 篇 幅 不 再 针对 各 个 变 
量 一 一 展开 说 明 ， 以 变量 V38 为 例 进行 解释 。 


e。 百 分 位 数 (Percentiles ): 可 以 看 出 变量 V38 的 第 1 个 四 分 位 数 (25% ) 是 0, 第 2 个 
四 分 位 数 (50% ) 是 0。 

。 4 个 最 小 值 (Smallest): 变量 V38 最 小 的 4 个 数据 值 分 别 是 0、0、0、0。 

。 4 个 最 大 值 (Largest): 变量 V38 最 大 的 4 个 数据 值 分 别 是 40221.8、44482、57815.9、 
68799.7。 

e。 平均 值 (Mean ) 和 标准 差 (Std. Dev): 变量 V38 的 平均 值 为 12397.35， 标 准 差 是 
20248.22。 

e ” 偏 度 (Skewness ) 和 峰 度 (Kurtosis): 变量 V38 的 偏 度 为 1.377929， 为 正 偏 度 。 变量 
V38 的 峰 度 为 3.615326， 有 一 个 比 正 态 分 布 略 长 的 尾巴 。 


从 上 面 的 描述 性 分 析 结 果 中 可 以 看 出 ， 所 有 数据 中 没有 极端 数据 ， 数 据 间 的 量 纲 差距 也 
在 可 接受 范围 之 内 ， 可 以 进入 下 一 步 的 分 析 过 程 。 


505 


”stata 统 计 分 析 与 行业 应 用 案例 详解 (第 2 版 ) 
AAAAAAAAAAAAAAAAI \ \\\N\ 


22.5 ”相关 分 析 


对 于 相关 分 析 ， 准 备 进行 以 下 几 个 部 分 : 


1 


对 “农业 总 产值 ” 的 9 个 来 源 (“粮食 产量 ”“ 棉 花 产量 ”“ 油 料 产 量 ”“ 麻 类 产量 ”“ 甘 
蔗 产 量 "” “甜菜 产量 ” “烟叶 产量 ” “茶叶 产量 ” “水 果 产 量 ” ) 进行 简单 相关 分 析 。 
对 9 种 农产品 的 单位 面积 产量 (“ 谷 物 单位 面积 产量 ” “棉花 单位 面积 产量 ” “花生 单 
位 面积 产量 ” “油菜 籽 单 位 面积 产量 ” “芝麻 单 位 面积 产量 ”“ 黄 红 麻 单位 面积 产量 ” 
“甘蔗 单位 面积 产量 "” “烤烟 单位 面积 产量 " “甜菜 单位 面积 产量 ” ) 进行 简单 相关 分 
析 。 
对 “稻谷 ” “小 麦 " “玉米 ”“ 豆 类 ”“ 蓝 类 ”5 种 粮食 作物 进行 简单 相关 分 析 。 
对 “花生 ” “油菜 籽 >” “芝麻 ”3 种 油料 作物 进行 简单 相关 分 析 。 
对 “苹果 ”“ 柑 桔 ” “ 梨 ” “葡萄 ” “香蕉 ”5 种 水 果 产 品 进 行 简单 相关 分 析 。 

. 对 “农业 总 产值 ”的 10 个 来 源 进行 简单 相关 分 析 


操作 步骤 如 下 : 
加 进入 Stata 14.0， 打 开 相关 数据 文件 ， 弹 出 主 界面 。 
加 在 主 界面 的 “Command” 文 本 框 中 输入 如 下 命令 : 


correlate var3-varll: 本 命令 旨 在 使 用 简单 相关 分 析 方 法 研究 var3~varll 共 9 个 变量 之 
间 的 相关 关系 。 

pwcorr var3-varll,sidak sig star(0.01): 本 命令 旨 在 判断 var3~varll 共 9 个 变量 之 间 的 
相关 性 在 置信 水 平 为 99% 时 是 否 显著 。 


辆 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 
结果 分 析 如 图 22.21 和 图 22.22 所 示 。 从 图 22.21 可 以 看 出 ,构成 “农业 总 产值 ”的 10 个 
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大 部 分 变量 之 间 的 相关 系数 不 高 。 


var3 vara var5 var6 var7 vare var9 varlo 。 varll 
var3 1.0000 

varg 0.1461 1.0000 

vars 0.7318 0.2104 1.0000 

var6 0.4903 0.2642 0.6630 1.0000 

var7 | -0.0713 -0.1077 -0.1072 0.0180 1.0000 

vare 0.1710 0.7631 -0.1086 0.1328 -0.0926 1.0000 

var9 0.1764 -0.0983 0.2113 0.3011 0.1502 -0.1259 1.0000 

varlo 0.0420 -0.1056 0.2129 0.3969 0.0996 -0.2182 0.5833 1.0000 

varll 0.5739 0.3562 0.7099 0.2679 0.1373 -0.0030 0.0579 0.0674 1.0000 


22.21 ”相关 分 析 结 果 图 1 
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var3 1.0000 


varg 0.1461 1.0000 
1.0000 
var5 0.7318* 0.2104 1.0000 


0.0001 1.0000 


var6 0.4903 0.2642 0.6630+* 1.0000 
0.1684 0.9972 0.0017 


var7 | -0.0713 -0.1077 -0.1072 0.0180 1.0000 
1.0000 1.0000 1.0000 1.0000 


var8 0.1710 0.7631* -0.1086 0.1328 -0.0926 1.0000 
1.0000 0.0000 1.0000 1.0000 1.0000 


var9 0.1764 -0.0983 0.2113 0.3011 0.1502 -0.1259 1.0000 
1.0000 1.0000 1.0000 0.9772 1.0000 1.0000 


varl0 0.0420 -0.1056 0.2129 0.3969 0.0996 -0.2182 0.5833 
1.0000 1.0000 1.0000 0.6277 1.0000 0.9999 0.0204 


varll 0.5739 0.3562 0.7099* 0.2679 0.1373 -0.0030 0.0579 
0.0262 0.8374 0.0003 0.9965 1.0000 1.0000 1.0000 


var10 varll 


varl0 1.0000 
varll 0.0674 1.0000 
1.0000 


22.22 ”相关 分 析 结 果 图 2 


从 图 22.22 中 可 以 看 出 ，“ 粮 食 产 量 ” 与 “油料 产量 ”、“ 棉 花 产量 ”与 “甜菜 产量 ”、 
“油料 产量 ”与 “ 麻 类 产量 ”等 变量 之 间 的 相关 性 在 1% 的 显著 性 水 平 上 显著 。 

2. 对 9 种 农产品 的 单位 面积 产量 进行 简单 相关 分 析 

操作 步骤 如 下 : 

四 进入 Stata 14.0， 打 开 相 关 数 据 文 件 ， 弹 出 主 界面 。 

在 主 界面 的 “Command” 文 本 框 中 输入 命令 : 


。 “correlate var28-var35 var38: 本 命令 旨 在 使 用 简单 相关 分 析 方 法 研究 var28~var35、var38 
等 9 个 变量 之 间 的 相关 关系 。 

® pwceorr var28-var35 var38,sidak sig star(0.01): 本 命令 旨 在 判断 var28~var35、var38 等 9 
个 变量 之 间 的 相关 性 在 置信 水 平 为 99% 时 是 否 显著 。 


加 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


结果 分 析 如 图 22.23 和 图 22.24 所 示 。 从 图 22.23 可 以 看 出 ，9 种 农产品 的 单位 面积 产量 ， 
大 部 分 变量 之 间 的 相关 系数 不 高 。 
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~ correlate var28-var3s var3e 


{obs=31) 
| var28 var29 var30 var31 war32 var33 var34 var35 var38 
var28 1.0000 
var29 0.2929 “1.0000 
var30 0.4496 0.3984 1.0000 
var31 0.0903 -0.0914 -0.0129 1.0000 
var32 0.5121 0.2738 0.5807 -0.0132 1.0000 
var33 0.2113 -0.1396 0.4488 0.0068 0.4005 1.0000 
var34 0.0867 -0.0441 0.1137 0.0039 0.2679 0.5318 1.0000 
var35 | -0.0949 0.0073 -0.1479 0.0782 0.0718 -0.0075 -0.1326 1.0000 
var38 | -0.0288 0.3098 0.0564 0.0248 -0.0949 -0.4339 -0.5840 0.2104 1.0000 


22.23 ”相关 分 析 结 果 图 3 


pwoorr var28-var35 var38,sidak sig star(0.01) 

varz8 varz9 var30 var3l var32 var33 var34 

varz8 | 1.0000 

varz9 | 0.2929 1.0000 
0.9848 

var30 | 0.4496 0.3984 1.0000 
0.3326 0.6190 

var3l | 0.0903 -0.0914 -0.0129 1.0000 
1.0000 1.0000 1.0000 

var32 | 0.5121 0.2738 0.5807 -0.0132 1.0000 
0.1100 0.9948 0.0219 1.0000 

var33 | 0.2113 -0.1396 0.4488 0.0068 0.4005 1.0000 
1.0000 1.0000 0.3362 1.0000 0.6064 

var34 | 0.0867 -0.0441 0.1137 0.0039 0.2679 0.5318 1.0000 
1.0000 1.0000 1.0000 1.0000 0.9965 0.0721 

var35 | -0.0949 0.0073 -0.1479 0.0782 0.0718 -0.0075 -0.1326 
1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 

var36 | -0.0288 0.3098 0.0564 0.0248 -0.0949 -0.4339 -0.5840 
1.0000 0.9663 1.0000 1.0000 1.0000 0.4142 0.0200 
var35 var38 

var35 | 1.0000 

var38 | 0.2104 1.0000 


1.0000 


图 22.24 ”相关 分 析 结 果 图 4 


从 图 22.24 中 可 以 看 出 , 9 种 农产品 的 单位 面积 产量 等 变量 之 间 的 相关 性 都 比较 差 , 在 1% 


的 显著 性 水 平 上 不 显著 


3. 对 “稻谷 ” “小麦” 


操作 步骤 如 下 : 


“玉米 ”“ 豆 类 ”“ 苗 类 ”5 种 粮食 作物 进行 简单 相关 分 析 


四 进入 Stata 14.0， 打 开 相 关 数 据 文 件 ， 弹 出 主 界面 。 
国 在 主 界面 的 “Command” 文 本 框 中 输入 如 下 命令 : 


ecorrelate varl3 varl4 varl5 var16 var17: 本 命令 旨 在 使 用 简单 相关 分 析 方 法 研究 
Varl13、varl4、varl15、var16、varl17 共 5 个 变量 之 间 的 相关 关系 。 
® pwceorrvarl3 varl4 varl$ var16 varl7,sidak sig star(0.01): 本 命令 旨 在 判断 var13、varl4、 
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var15、var16、var17 共 5 个 变量 之 间 的 相关 性 在 置信 水 平 为 99% 时 是 否 显著 。 
国 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


结果 分 析 如 图 22.25 和 图 22.26 所 示 。 从 图 22.25 可 以 看 出 ，“ 稻 谷 ”“ 小 麦 ”“ 玉 米 ” 
“ 豆 类 ”“ 昔 类 ” 共 5 种 粮食 作物 之 间 的 相关 系数 不 大 。 
从 图 22.26 中 可 以 看 出 ， 仅 有 “玉米 ”与 “ 豆 类 ”之 间 的 相关 性 在 1% 的 显著 性 水 平 上 显著 。 


pwcorr varl3 varl4 varl5 var16 var17,sidak sig star(0.01) 


Varl3 varl4 varls varl6 varl7 
varl3 1.0000 
varla | -0.0354 1.0000 
1.0000 
. correlate varl3 varl4 varl5 var16 var17 
varl5s 0.0241 0.4232 1.0000 


(obs=31) 
1.0000 0.1634 


| varl3 varl4 var15 var16 


varl16 0.4209 0.0669 0.6491* 1.0000 
0.1693 1.0000 0.0008 


var13 1.0000 

varl14 | -0.0354 1.0000 

var15 0.0241 0.4232 1.0000 

var16 0.4209 0.0669 0.6491 1.0000 
var17 0.1877 0.1221 0.2192 0.2191 


var17 0.1877 0.1221 0.2192 0.2191 1.0000 


0.9762 0.9992 0.9323 0.9326 


22.25 ”相关 分 析 结果 图 5 图 22.26 ”相关 分 析 结果 图 6 

4. 对 “花生 ”“ 油 菜 籽 ”“ 芝 麻 ”3 种 油料 作物 进行 简单 相关 分 析 

操作 步骤 如 下 : 

加 进入 Stata 14.0， 打 开 相 关 数据 文件 ， 弹 出 主 界面 。 

加 在 主 界面 的 “Command” 文 本 框 中 输入 如 下 命令 : 

日 “correlate ”varl8 var19 var20: 本 命令 旨 在 使 用 简单 相关 分 析 方 法 研究 var18、var19、 
Var20 共 3 个 变量 之 间 的 相关 关系 。 

® pwceorr varl8 varl9 var20,sidak sig star(0.01): 本 命令 旨 在 判断 var18、var19、var20 
共 3 个 变量 之 间 的 相关 性 在 置信 水 平 为 99% 时 是 否 显著 。 

加 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 

结果 分 析 如 图 22.27 和 图 22.28 所 示 。 从 图 22.27 可 以 看 出 “花生”“ 油 菜 籽 ”“ 芝 麻 ” 

共 3 种 油料 作物 之 间 的 相关 系数 不 大 。 
从 图 22.28 中 可 以 看 出 ， 仅 有 “花生 ”与 “芝麻 ”之 间 的 相关 性 在 1% 的 显著 性 水 平 上 显著 。 


+ pwcorr varl8 varl9 var20,sidak sig star(0.01) 


| varl8 varl9 var20 
。 correlate 。 varl8 varl9 var20 varl8 | 1.0000 
(obs=31) 
| varla varl9 var20 varl9 0.1003 1.0000 
0.9317 
varla | 1.0000 
varl9 | 0.1003 1.0000 var20 | 0.6508* 0.4375 1.0000 
var20 | 0.6508 0.4375 1.0000 0.0002 0.0410 


图 22.27 相关 分 析 结 果 图 7 22.28 ”相关 分 析 结 果 图 8 
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5. 对 “苹果 ”“ 柑 桔 ”“ 梨 ”“ 和 葡萄 ”“ 香 从”5 种 水 果 产 品 进行 简单 相关 分 析 
操作 步骤 如 下 : 

进入 Stata 14.0， 打 开 相 关 数 据 文件 ， 弹 出 主 界面 。 

加 在 主 界面 的 “Command” 文 本 框 中 输入 如 下 命令 : 


® correlate var23 var24 var25 var26 var27: 本 命令 旨 在 使 用 简单 相关 分 析 方法 研究 var23、 
var24、var25、var26、var27 共 5 个 变量 之 间 的 相关 关系 。 

®e pwcorr var23 var24 var25 var26 var27,sidak sig star(0.01): 本 命令 旨 在 判断 var23、 
Var24、var25、var26、var27 共 5 个 变量 之 间 的 相关 性 在 置信 水 平 为 99% 时 是 否 显著 。 


[加 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


结果 分 析 如 图 22.29 和 图 22.30 所 示 。 从 图 22.29 可 以 看 出 ， “苹果 ”“ 柑 桔 ”“ 梨 ”“ 葡 
萄 ”“ 香 花 ”5 种 水 果 产 品 之 间 的 相关 系数 不 大 。 

从 图 22.30 中 可 以 看 出 ， 仅 有 “ 梨 ” 与 “葡萄 ”变量 之 间 的 相关 性 在 1% 的 显著 性 水 平 上 
显著 。 


\ 
AAANV 


.pwcorr var23 var24 var25 var26 var27,sidak sig star(0.01) 


Var23 var24 var25 var26 var27 


1.0000 


» Correlate var23 var24 var25 Var26 var27 
(obs=31) 


-0.2845 1.0000 
0.7243 


0.4499 -0.1701 1.0000 
0.1056 0.9885 


| var23 var24 var25 var26 var27 


1.0000 
-0.2845 1.0000 

0.4499 -0.1701 1.0000 

0.4145 -0.2288 0.6220 1.0000 
-0.1929 0.4019 -0.1836 -0.1758 1.0000 


0.4145 -0.2288 0.6220* 1.0000 
0.1864 0.9120 9.0019 


-0.1929 0.4019 -0.1836 -0.1758 1.0000 
0.9712 0.2239 0.9797 0.9833 


22.29 ”相关 分 析 结 果 图 9 图 22.30 ”相关 分 析 结 果 图 10 


22.6 ”回归 分 析 


对 于 回归 分 析 ， 准 备 进行 以 下 几 个 部 分 : 

。 以 “农业 总 产值 ”为 因 变 量 ， 以 农业 为 自 变 量 ， 进 行 最 小 二 乘 线性 回归 。 

。 ”以 “农业 总 产值 ”为 因 变 量 ， 以 “谷物 单位 面积 产量 " “棉花 单 位 面积 产量 "” “花生 单 
位 面积 产量 ” “油菜 将 单位 面积 产量 " “芝麻 单位 面积 产量 "”“ 黄 红 麻 单位 面积 产量 ” 

“甘蔗 单位 面积 产量 ” “烤烟 单位 面积 产量 ” “甜菜 单位 面积 产量 ” “受灾 面积 ( 千 公 
项 “成 灾 面积 ( 千 公顷 )” 为 自 变 量 ， 进 行 最 小 二 来 线性 回归 。 

1. 以 “农业 总 产值 ”为 因 变 量 ， 以 “粮食 产量 ” “棉花 产 量 ”“ 油 料 产 量 ”“ 麻 类 产量 ” 
“甘蔗 产量 ”“ 甜 菜 产 量 ”“ 烟 叶 产量 ”“ 茶 叶 产 量 ”“ 水 果 产 量 ”“ 受 灾 面积 ( 千 
公顷 ) ”“ 成 灾 面 积 〈 千 公顷 ) ”为 自 变 量 ， 进 行 最 小 二 乘 回 归 

建立 线性 模型 : 
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Var2=a*Var3+b*Var4+c*VarStd*Var6te*Var7+f*Var8+g*Var9+h*VarlOQ+i*Varll +u 
普通 最 小 二 乘 回归 分 析 步 又 及 结果 如 下 : 


进入 Stata 14.0， 打 开 相关 数据 文件 ， 弹 出 主 界面 。 
贺 在 主 界面 的 “Command” 文 本 框 中 输入 如 下 命令 : 


eswregress var2 var3-varll,pr(0.1): 本 命令 的 含义 是 使 用 逐步 回归 分 析 方 法 , 以 “ 农 
业 总 产值 ”为 因 变 量 ， 以 “粮食 产量 " “棉花 产 量 "” “油料 产量 "“ 麻 类 产量 "” “甘蔗 产 
量 "” “甜菜 产量 "” “烟叶 产 量 "” “茶叶 产 量 ” “水 果 产 量 ” 为 自 变 量 ， 进 行 最 小 二 乘 回归 
分 析 。 

。 predict yhat: 本 命令 旨 在 获得 因 变 量 的 拟 合 值 。 

。 predict e,resid: 本 命令 间 在 获得 回归 模型 的 估计 残 差 。 

。 rvfplot: 本 命令 旨 在 绘制 残 差 与 回归 得 到 的 拟 合 值 的 散 点 图 ， 探 索 数据 是 否 存在 异 方差 。 

。 estat imtesbwhite: 本 命令 为 怀特 检验 ， 旨 在 检验 数据 是 否 存 在 异 方差 。 

。 ”estat hettest,iid: 本 命令 为 BP 检验 ， 旨 在 使 用 得 到 的 拟 合 值 来 检验 数据 是 否 存在 异 方差 。 

日 estat hettest,rhs iid: 本 命令 为 BP 检验 , 旨 在 使 用 方程 右边 的 解释 数据 来 检验 变量 是 否 
存在 异 方差 。 


贺 设置 完毕 后 ， 按 键盘 上 的 回 车 键 进行 确认 。 


在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 22.31~ 图 22.37 所 示 的 分 析 结 果 。 

图 22.31 是 使 用 逐步 回归 分 析 方法 ， 以 “农业 总 产值 ”为 因 变量 ， 以 “粮食 产量 ” “棉花 
产量 ” “油料 产量 ”“ 麻 类 产量 ” “甘蔗 产量 ”“ 甜 菜 产 量 ” “烟叶 产 量 ”“ 茶 叶 产 量 ”“ 水 
果 产 量 ” 为 自 变量 ， 进 行 最 小 二 乘 回归 分 析 的 结果 。 


sw reqress var2 var3-varil,pr(0.1) 
begin utrh full model 


p ~- 0.9613 >- 0.1000 removing warG 
D = 0.6571 >= 0.1000 removing vars 
p - 0.4521 >- 0.1000 removing var7 
D = 0.2370 >= 0.1000 removing war9 


source 33 ar ns Number of obs = 31 
Fl Ss 25) = 73.94 

Hodel | 20600230.6 5 5736047.72 Prob > 下 - o.oooo 
Reaidual | 1939493.06 25 77579.7224 R-savared = 0.9367 
Adi 了 -equared = 0.9240 

Toral | 30619731.7 -30 1020697.72 Root HSE = 278.33 
war2 Coef. Stq. Err. 上 p>lrl [oss Conf. Interva 1 
var3 .376556 .0460278 3.18 0.000 2817599 .4713521 
aa 4.158882 1.961544 2.12 0.044 -119006 8.198758 
varlo 15.1a509 6.500a15 2.79 0.010 aa.757231 31.33294 
varll 644364 .1238177 5.20 0.000 .3893567 .9993714 
vare | -1.792251 .9692901 = -1.65 0.076 -3.700541 .2040392 
_eons 66-00589 89.92312 0.73 O470 -119.1942 251.206 


图 22.31 回归 分 析 结果 图 1 


从 上 述 分 析 结 果 中 可 以 看 出 共有 31 个 样本 参与 了 分 析 ， 模 型 的 F 值 (5, 25) =73.94，P 值 
(Prob >F) = 0.0000, 说 明 模 型 整体 上 是 非常 显著 的 。 模 型 的 可 决 系数 (R-squared ) 为 0.9367， 
模型 修正 的 可 决 系数 (Adj R-squared) 为 0.9240, 说 明 模 型 的 解释 能 力 是 非常 优秀 且 接 近 完 美 
的 。 
模型 经 过 4 次 剔除 变量 后 得 到 最 终结 果 。 第 1 个 模型 是 包含 全 部 自 变量 的 全 模型 ， 该 模 
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后 的 模型 ， 该 模型 中 var5 变量 的 系数 显著 性 P 值 高 达 0.6571， 被 剔除 掉 ， 第 3 个 模型 是 剔除 
掉 自 变量 var6、var5 以 后 的 模型 ， 该 模型 中 var7 变量 的 系数 显著 性 P 值 高 达 0.4521， 被 剔除 
掉 ; 第 4 个 模型 是 剔除 掉 自 变量 var6、var5、var7 以 后 的 模型 ， 该 模型 中 var9 变量 的 系数 显 
著 性 P 值 高 达 0.2370， 被 剔除 掉 。 剔 除 自 变量 var6、var5、var7、var9 以 后 得 到 最 终 回 归 模 型 。 

在 最 终 回 归 模型 中 ， 变 量 var3 的 系数 标准 误 是 0.0460278，t 值 为 8.18，P 值 为 0.000， 系 
数 是 非常 显著 的 ，95% 的 置信 区 间 为 [0.2817599，0.4713521] 。 变 量 var4 的 系数 标准 误 是 
1.961544,t 值 为 2.12,P 值 为 0.044, 系数 是 非常 显著 的 ,95% 的 置信 区 间 为 [0.119006, 8.198758]。 
变量 var10 的 系数 标准 误 是 6.500415，t 值 为 2.79，P 值 为 0.010， 系 数 是 非常 显著 的 ，95% 的 
置信 区 间 为 [4.757231, 31.53294]。 变 量 varl1 的 系数 标准 误 是 0.1238177，t 值 为 5.20，P 值 为 
0.000， 系 数 是 非常 显著 的 ，95% 的 置信 区 间 为 [0.3893567，0.8993714]。 变 量 var8 的 系数 标准 
误 是 0.9692901,t 值 为 -1.85, P 值 为 0.076， 系数 是 比较 显著 的 ，95% 的 置信 区 间 为 [-3.788541， 
0.2040392]。 常 数 项 的 系数 标准 误 是 89.92312，t 值 为 0.73，P 值 为 0.470， 系 数 是 非常 不 显著 
的 ，95% 的 置信 区 间 为 [-119.1942, 251.206]。 

最 终 最 小 二 乘 回归 模型 的 方程 是 : 


Var2=0.376556 *var3+ 4.158882*var4-1.792251*var8 + 18.14509 *varl0 
+0.644364*varll + 66.00589 


图 22.32 是 对 因 变 量 的 拟 合 值 的 预测 。 


var var var var varys ver Ovary ver yhar 


1 150 966.7 0 9 6 364 [EEC 
2 0 0.5 9 9 C9 I.2 0 
3 496.z 140z 2219,4 5 31606229.3 S201 27242.9 00 
4 9 0 9 日 3428.4 105 544.9 S7015.9 ON 
5 1098.7 495.5 9 9 4120 2036.6 -908.7 40221.8 7 0 
‘ 2071 。 1306. 日 CHE 
7 0 90.1 9 0 a5 G04 221.7 2401.8 0 
22574 9 0 2440.4 156.8 -6.5 33526.3 2 
9 50. 28.6 0 G4002.4 9 24.3 9.2 0 790.7292 
10 5 1607.6 4600 58940.5 1700 092. 332.7 9 
和 1958 1665.6 3596.4 62764.4 日 4.1 159.3 CE 
1917.2 298.9 2997.9 39924.7 2701.8 1317.2 198.5 0109.098 
了 69 1252.3 3275.4 G09041 2110.9 133.1 .3 6 1299.705 
到 228.4 397.3 4490.9 44891.1 2294.8 1075.3 426.7 32.469 
15 2525.4 1701.6 ezoo 9 202.s 2447.2 41s.6 on 3916.14 
16 2016.4 60 S352.8 07398.2 2345 1477.6 -380.2 0900 
27 910.9 4636.2 3430 41651.7 2024.3 2580 790.3 9 2069.097 
38 S58,9 1451.5 3096.6 49813.7 2353.3 2374.8 355 0 2068,414 
39 83 4189.3 2165.6 $6715.8 2301.9 S047 118.3 "三 
20 1007.8 1218.8 2570.9 66599.2 1734.2 1437.3 638,1 3 
a4 0 6.1 6846.7 64072.7 714.3 S16.6 190 398.7427 
2z 91 995.9 1390.4 34902.7 1951.3 6 240,5 0709,3965 
2 zz 101 22162 46945 2017.4 1528.2 720.7 17020.4 [E0909 


24 laks.5 1041.9 666.7 36409.9 16251 2570.2 ”1363.7 -4765.9 00 


22.32 ”回归 分 析 结 果 图 2 


因 变 量 预测 拟 合 值 是 根据 自 变量 的 值 和 得 到 的 回归 方程 计算 出 来 的 ， 主 要 用 于 预测 未 来 。 
在 图 22.32 中 可 以 看 到 yhat 的 值 与 var2 的 值 是 比较 相近 的 , 所 以 拟 合 的 回归 模型 还 是 不 错 的 。 
图 22.33 是 回归 分 析 得 到 的 残 差 序列 。 
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vn 


var3z var33 Jar 
966.7 o o 

1438.5 o o 

3 1402 2219 9 

1018.3 9 

5 95 9 

6 1906.7 o o 

7 1398.1 0 o 

185.1 9 o 

3 $28.6 0 64082.4 

10 16607.6 4600 58940.5 


M1 1665.6 3596.4 62764.4 
了 1298.9 2997.9 39924.7 
3 1252.3 3275.4 60904.1 


34 997.3 4490.9 44891.1 
15 1701.6 e700 o 
16 160 。 5352.8 67198.2 
27 1106.2 3430 41651.7 


8 1451.5 3096.6 49811.7 
19 1189.3 2165.6 86735.8 
20 1218.8 2570.9 66599.2 


231 980.1 60846.7 64072.7 
32 995.9 1390.4 34902.7 
3 301 2216.2 46945 
34 1041.9 666.7 36409.9 


1816.2 
3428.4 
4120 
2733.3 
2745.1 
2440.4 
o 
1700 
o 
2701.8 
2110.9 
2294.8 
2622.5 
2345 
024.3 
2353.3 
2301.9 
1734.2 
F143 
1951.3 
2037.4 
1625.1 


vara7 ar 了 
18.4 0 
3.2 0 


S28.1 37242.9 
544.8 57815.9 
908.7 40221.8 
173.1 4402 
221.7 32481.8 
682.5 33526.3 


1363.7 4365.9 


图 22.33 ”回归 分 析 结 果 图 3 

图 22.34 是 我 们 上 面 几 步 得 到 的 残 差 与 得 到 的 拟 合 值 的 散 点 图 。 
从 图 22.34 中 可 以 看 出 , 残 差 并 没有 随 着 拟 合 值 的 大 小 的 不 同 而 不 同 , 而 是 围绕 0 值 上 下 
随机 波动 的 ， 所 以 数据 很 可 能 是 不 存在 异 方差 的 。 


图 22.35 是 怀特 检验 的 检验 结果 。 
引 


各 。。 

3 . 访 。 . . 

ow* 和 [> 

8 - = ES 
Fitted values 


图 22.34 回归 分 析 结 果 图 4 


estat imtesi 


chi2 


Prob > 


>yhar 
190,1899 
137.2138 
2556.693 
81.5237 
877.4384 
1341.308 
1381.275 
1851.137 
170.7292 
1929.368 
1141.142 
2109.098 
1233.705 
1332.469 

3916.14 
2956.407 
2069.097 
2068.414 
1534.257 
473.371 


398.7427 225770 
709.3965 D160307 


2149.09 


584.3438 BO 


twhite 


(20) 


chi2 = 


White's test for Ho: homoskedasticity 
againac Ha: unrestricted heteroskedasticity 


23.70 
0.2560 


Cameron 5 Trivedi's decomposition of IN-test 


Source | chi2 上 p 
Heteroskedasticity 23.70 20 0.2560 
Skevness 3.20 5 0.6690 
Kurtosis 0.68 1 0.4087 
Tocal | 27.58 26 0.3795 


图 22.35 ”回归 分 析 结 果 图 5 


怀特 检验 的 原 假 设 是 数据 为 同方 差 。 从 图 22.35 中 可 以 看 出 ，P 值 为 0.2560， 非 常 显著 地 
接受 了 同方 差 的 原 假设 ， 认 为 不 存在 异 方差 。 
图 22.36~ 图 22.37 是 BP 检验 的 检验 结果 。 其 中 图 22.36 是 使 用 得 到 的 拟 合 值 对 数据 进行 
异 方差 检验 的 结果 ， 图 22.37 是 使 用 方程 右边 的 解释 变量 对 数据 进行 异 方差 检验 的 结果 。 
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~ estat hettest,rhs iid 


. estat hettest,iid 


Breusch-Pagan / Cook-Weisberg test for heteroskedasticity 
Ho: Constant variance 
Variables: var3 var4 var10 varll varB 


Breusch-Pagan / Cook-Weisherg test for heteroskedasticity 
Ho: Constant variance 
Variables: fitted values of var2 


chi2 (5) = 了 .434 


eed oe Prob > chi2 = 0.1902 


Prob > chi2 = 0.0651 


图 22.36 回归 分 析 结果 图 6 图 22.37 回归 分 析 结 果 图 7 


BP 检验 的 原 假设 是 数据 为 同方 差 。 从 图 22.36 和 图 22.37 中 可 以 看 出 ，P 值 均 大 于 0.05， 
非常 显著 地 接受 了 同方 差 的 原 假设 , 认为 不 存在 异 方差 , 所 以 没有 必要 使 用 稳健 的 标准 差 进行 
回归 。 

经 过 以 上 最 小 二 乘 回归 分 析 可 以 发 现 我 国 农业 总 产值 水 平 与 “粮食 产量 ”“ 棉 花 产量 ” 
“甜菜 产量 ”“ 茶 叶 产 量 ” 以 及 “水 果 产 量 ” 都 有 一 定 的 显著 关系 。 具 体 而 言 ，“ 粮 食 产 量 ” 
“棉花 产量 ” “茶叶 产量 ”以 及 “水 果 产 量 ” 有 拉动 效应 ， 尤 其 是 茶叶 产量 ， 每 增加 一 个 单位 
会 带 来 对 应 农业 总 产值 的 18 倍 多 的 增加 ; 甜菜 产量 对 农业 总 产值 水 平 有 拖 后 效应 ， 在 一 定 程 
度 上 说 明 种 植 这 种 作物 是 不 经 济 的 。 


2. 以 “农业 总 产值 ”为 因 变 量 ， 以 “谷物 单位 面积 产量 "” “棉花 单位 面积 产量 “花生 
单位 面积 产量 ” “油菜 籽 单 位 面积 产量 ” “芝麻 单位 面积 产量 ”“ 黄 红 麻 单位 面积 
产量 ” “甘蔗 单位 面积 产量 ” “烤烟 单位 面积 产量 ” “甜菜 单位 面积 产量 ” “受灾 
面积 〈 千 公顷 ) ”“ 成 灾 面 积 〈 千 公顷 ) ”为 自 变量 ， 进 行 最 小 二 乘 线性 回归 

建立 线性 模型; 


Var2=a*var3+b*var4+c*varStd*var6te*var7+f*var8+g*var9+h*varl0+i*varll 十 U 
普通 最 小 二 乘 回归 分 析 的 步骤 及 结果 如 下 : 


进入 Stata 14.0， 打 开 相 关 数 据 文件 ， 弹 出 主 界面 。 
加 在 主 界面 的 “Command” 文 本 框 中 输入 如 下 命令 。 


® sw regress var2 Var28 var29 var30 var31 var32 var33 var34 var35 var36 var37 
var38,pr(0.1): 本 命令 的 含义 是 使 用 逐步 回归 分 析 方 法 ， 以 “谷物 单位 面积 产量 ”“ 棉 
花 单位 面积 产量 ”“ 花 生 单位 面积 产量 " “油菜 籽 单 位 面积 产量 "“ 芝 麻 单 位 面积 产量 ” 
“ 黄 红 麻 单位 面积 产量 ” “甘蔗 单位 面积 产量 ” “烤烟 单位 面积 产量 ” “甜菜 单位 面积 
产量 ”“ 受 灾 面 积 ( 千 公顷 )”“ 成 灾 面 积 ( 千 公 顷 ) 为 自 变 量 ， 进 行 最 小 二 乘 回归 分 
析 。 

。 predict yhat: 本 命令 旨 在 获得 因 变 量 的 拟 合 值 。 

e “predict exresid: 本 命令 旨 在 获得 回归 模型 的 估计 残 差 。 

。 Ivfplot: 本 命令 旨 在 绘制 残 差 与 回归 得 到 的 拟 合 值 的 散 点 图 ， 探 索 数据 是 否 存在 异 方差 。 

eestat imtest,white: 本 命令 为 怀特 检验 ， 旨 在 检验 数据 是 否 存在 异 方差 。 

。 ”estat hettest,iid: 本 命令 为 BP 检验 , 旨 在 使 用 得 到 的 拟 合 值 来 检验 数据 是 否 存在 异 方差。 

。 “estat hettest,rhs iid: 本 命令 为 BP 检验 ， 旨 在 使 用 方程 右边 的 解释 数据 来 检验 变量 是 否 
存在 异 方差 。 


514 


[加 设置 完毕 后 ， 按 键盘 上 的 回 车 键 进行 确认 。 
在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 22.38~ 图 22.44 所 示 的 分 析 结 果 。 
图 22.38 是 使 用 逐步 回归 分 析 方法 ， 以 “谷物 单位 面积 产量 ”“ 棉 花 单位 面积 产量 ”“ 花 
生 单 位 面积 产量 ”“ 油 菜 籽 单 位 面积 产量 ”“ 世 麻 单位 面积 产量 ”“ 黄 红 麻 单位 面积 产量 ”“ 甘 
芒 单 位 面积 产量 ” “烤烟 单位 面积 产量 ” “甜菜 单位 面积 产量 ”“ 受 灾 面 积 〈 千 公 硕 ) ”“ 成 
灾 面 积 ( 千 公顷 ) ”为 自 变 量 ， 进 行 最 小 二 乘 回归 分 析 的 结果 。 


六 总 
可 
se 
岗 可 
sp 
Hs 

Source ss ar ms Numper or ops = 31 

Wl El 

Nodel | 23831225.6 5 4766245.13 Prob > 下 = 0.0000 

Residual | 6788506.03 。 25 271540.241 R-squared = 0.7783 

adj R-squared = 0.7340 

Toral | 30619731.7 30 1020657.72 Root NSE = 521.1 

var2 Coef. std. Err. t pylcl [9ss Conf. Interval] 

var33 .1263766 。 .0514549 2.46 0.021 .0204033 .23235 

var36 .472352 。 .1306429 3.62 ”0.001 .2032879 .7414161 

var30 .2965623 。 .1187119 2.50 0.019 .0520707 541054 

var31 .3739334 。 .1282699 2.92 ”0.007 .1097566 .6381101 

var32 .4717766 。 .2478286 1.90 0.069 -.038636 .9821892 

cons | -1303.978 358.614 -3.64 0.001 -2042.558 -565.399 


22.38 回归 分 析 结果 图 8 


从 上 述 分 析 结 果 中 可 以 看 出 共有 31 个 样本 参与 了 分 析 ， 模 型 的 F 值 (5, 25) =17.55，P 值 
(Prob >F) = 0.0000, 说 明 模型 整体 上 是 非常 显著 的 。 模 型 的 可 决 系数 (R-squared ) 为 0.7783， 
模型 修正 的 可 决 系数 (Adj R-squared) 为 0.7340， 说 明 模 型 的 解释 能 力 是 比较 不 错 的 。 

模型 经 过 6 次 剔除 变量 后 得 到 最 终结 果 。 第 1 个 模型 是 包含 全 部 自 变量 的 全 模型 ， 该 模 
型 中 var28 变量 的 系数 显著 性 P 值 高 达 0.8016， 被 剔除 掉 ;， 第 2 个 模型 是 剔除 掉 自 变量 var28 
以 后 的 模型 ， 该 模型 中 var35 变量 的 系数 显著 性 P 值 高 达 0.3663， 被 剔除 掉 ; 第 3 个 模型 是 吻 
除 掉 自 变量 var28、var35 以 后 的 模型 ， 该 模型 中 var34 变量 的 系数 显著 性 P 值 高 达 0.3307, 被 
剔除 掉 ， 第 4 个 模型 是 剔除 掉 自 变量 var28、var35、var34 以 后 的 模型 ， 该 模型 中 var29 变量 
的 系数 显著 性 P 值 高 达 0.2565， 被 剔除 掉 ; 第 5 个 模型 是 剔除 掉 自 变量 var28、var35、var34、 
var29 以 后 的 模型 ， 该 模型 中 var37 变量 的 系数 显著 性 P 值 高 达 0.1851， 被 剔除 掉 ; 第 6 个 模 
型 是 剔除 掉 自 变量 var28、var35、var34、var29、var37 以 后 的 模型 ， 该 模型 中 var38 变量 的 系 
数 显著 性 P 值 高 达 0.2168， 被 剔除 掉 。 吻 除 掉 自 变 量 var28、var35、var34、var29、var37、var38 
以 后 ， 我 们 得 到 最 终 回 归 模 型 。 

在 最 终 回 归 模型 中 ， 变 量 var33 的 系数 标准 误 是 0.0514549，t 值 为 2.46，P 值 为 0.021， 
系数 是 非常 显著 的 ，95% 的 置信 区 间 为 [0.0204033，0.23235]。 变 量 var36 的 系数 标准 误 是 
0.1306429，t 值 为 3.62，P 值 为 0.001， 系 数 是 非常 显著 的 ，95% 的 置信 区 间 为 [0.2032879， 
0.7414161]。 变 量 var30 的 系数 标准 误 是 0.1187119, t 值 为 2.50, P 值 为 0.019， 系 数 是 非常 显 
著 的 ，95% 的 置信 区 间 为 [0.0520707, 0.541054]。 变 量 var31 的 系数 标准 误 是 0.1282699, t 值 为 
2.92, P 值 为 0.007， 系数 是 非常 显著 的 ，95% 的 置信 区 间 为 [0.1097566, 0.6381101]。 变 量 var32 
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的 系数 标准 误 是 0.2478286，t 值 为 1.90，P 值 为 0.069， 系 数 是 比较 显著 的 ，95% 的 置信 区 间 
为 [-0.038636, 0.9821892]。 常 数 项 的 系数 标准 误 是 358.614, t 值 为 -3.64, P 值 为 0.001， 系数 是 
非常 显著 的 ，95% 的 置信 区 间 为 [-2042.558, -565.399]。 

最 终 最 小 二 乘 回归 模型 的 方程 是 : 


var2=0.1263766*var33+0.472352 *var36+0.2965623*var30 +0.3739334 *var31 
+0.4717766* var32 -1303.978 


22.39 是 对 因 变 量 拟 合 值 的 预测 。 


rr 
1 150 966.7 站 站 S61 18.4 0 [zo.2133 | 
2 0 0s 。 © ol es 3 2 

3 6 0 2213.4 0 62 ao S281 372402.9 60 
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5 a098.7 05 o 0 0 206.6 00.7 «0221.8 

6 0 906.7 0 0 3 0 

7 0 8.1 © | 
4 5 。 | 
3 2150.3 924.6 0 és002.4 43 9.2 9 
it i667.6 600 S8940.5 i700 1032.4 332.7 0 
5 G05.6 590.4 G2764.4 0 9 0 
972909 2997.9 39924.7 27018 137.2 138. 日 

3 es i252 275.4 G09044 2110.9 31 48.3 0 040 
34 2 7 0 2 o 

35 5354 7016 e700 ea A722 ls.6 o 

天 20l6%4 360 S588 S982 145 477.6 200.2 0 

好 ao 62 0 41651.7 20243 2500 790.3 0 2902.977 
30 S89 451.5 3096.6 19813.7 2351.3 2374.8 955 o 

9 M9] 65.6 80715:8 21019 S047 ly 日 

a0 07 lz18. 1570.9 66599.2 1734.2 1497.3 O18,l o 
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图 22.39 回归 分 析 结果 图 9 


因 变 量 预 测 拟 合 值 是 根据 自 变 量 的 值 和 得 到 的 回归 方程 计算 出 来 的 ， 主 要 用 于 预测 未 
来 。 在 图 22.39 中 可 以 看 到 yhat 的 值 与 var2 的 值 是 比较 相近 的 ， 所 以 拟 合 的 回归 模型 还 是 
不 错 的 。 

22.40 是 回归 分 析 得 到 的 残 差 序 列 。 


Var varm areas varne war ere ynet i 
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4 ol8.3 o 0 e204 0l5 S448 S7015.9 751.2006 
5 o 0 0 206.6 200,7 aa 
6 isoc.7 o O33 0 9 
7 lase. o 0 75 Gl64 e247 I2481.8 549.4979 0 
村 385 .和 o o 2440.4 1536.8 E82.5 I33526.3 -1791.557 4254 
3 928.6 0 €4082.4 9 24.3 9.2 0 739.9992 992 
10 667.6 600 sas40.5s a700 i034 29227 日 2538.343 
二 lees-e 3596.4 e2764.4 ol ass 日 。 azos-as3 
3290.9 2997.9 39924.7 2701.8 1917.2 198.5 0 2350.885 
3 S23 3275-4 09044 2110.3 2334 .3 0 i041.033 
二。 973 4490.9 44891.1 2294.8 1075.3 426.7 o 1s23.193 世间 
5 1701.6 e700 0 202.s 21i7.2 sis.6 0 3549.023 D2070 
i660 S352.8 e338 oo 2145 1477.6 380.2 o 2727.203 e7207 
3 62 30 dles17 2024.3 2580 790.3 0 2902.973 
aas 2168.6 86735.8 2301.9 S017 iis. 0 i040.351 
20 las.s 2570.9 e539.2 1734-z 1437.9 E381 0 47.288 
21 981 6846.7 eso72.7 1143 sic.é oa 0 1020.3273 
32 935.9 30.4 34902-7 1961.3 me 2e0.5 o se.99. D405 
33 0 22162 46945 320274 1528.3 720-7 17020.4 is62.6a2 


22.40 回归 分 析 结 果 图 10 
22.41 是 上 面 几 步 得 到 的 残 差 与 得 到 的 拟 合 值 的 散 点 图 。 
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随机 波动 的 ， 所 以 ， 数 据 很 可 能 是 不 存在 异 方差 的 。 
图 22.42 是 怀特 检验 的 检验 结果 。 


. 。 
8 bt te's test for Ho: homoskedasticity 
ed against Ha: unrestricted heteroskedasticity 
。 
. chi2 (20) = 13.68 
EH . . ee Prob > chi2 = 0.8462 
对 : 。 。 
[3 . Cameron 5 Trivedi's decomposition of IM-test 
i 
。 
8 source chiz 
和 5 
Heteroskedasticity 13.68 
© Skewness 6.92 
8 Kurtosis .59 
0 1000 2000 3000 4000 
Fitted values Tocal 21.19 
22.41 回归 分 析 结果 图 11 图 22.42 回归 分 析 结 果 图 12 


怀特 检验 的 原 假设 是 数据 为 同方 差 。 从 图 22.42 中 可 以 看 出 ，P 值 为 0.8462， 非 常 显著 地 
接受 了 同方 差 的 原 假设 ， 认 为 不 存在 异 方差 。 

图 22.43 和 图 22.44 是 BP 检验 的 检验 结果 。 其 中 , 图 22.43 是 使 用 得 到 的 拟 合 值 对 数据 进 
行 异 方差 检验 的 结果 ， 图 22.44 是 使 用 方程 右边 的 解释 变量 对 数据 进行 异 方差 检验 的 结果 。 


Ho: Constant variance Ho: Constant variance 
Variables: fitted values of varz Variables: var33 var36 var30 var31 var32 


chi2 (1) = 1.33 chi2 (5) = 3.90 
Prob > chi2 = 0.2486 Prob > chi2 = 0.5642 


图 22.43 回归 分 析 结 果 图 13 图 22.44 回归 分 析 结 果 图 14 


BP 检验 的 原 假设 是 数据 为 同方 差 。 从 图 22.43 和 图 22.44 中 可 以 看 出 ，P 值 均 大 于 0.05， 
非常 显著 地 接受 了 同方 差 的 原 假设 , 认为 不 存在 异 方差 , 所 以 没有 必要 使 用 稳健 的 标准 差 进行 
回归 。 

经 过 以 上 最 小 二 乘 回归 分 析 可 以 发 现 我 国 农业 总 产值 水 平 与 “花生 单位 面积 产量 ”“ 油 
菜 籽 单位 面积 产量 ”“ 芝 麻 单位 面积 产量 ”“ 黄 红 麻 单位 面积 产量 ”以 及 “受灾 面积 ( 千 公 顷 ) 
都 有 一 定 的 显著 关系 。 具 体 而 言 ， 这 些 变量 都 对 我 国 的 农业 总 产值 有 显著 拉动 效应 。 “花生 单 
位 面积 产量 ”“ 油 菜 籽 单位 面积 产量 ” “芝麻 单位 面积 产量 ”“ 黄 红 麻 单位 面积 产量 ”对 我 国 
的 农业 总 产值 有 显著 拉动 效应 , 说 明 这 些 作物 都 是 经 济 的 , 也 就 是 量 的 提高 能 够 带 来 价值 的 提 
高 , “受灾 面积 〈 千 公顷 ) ”对 我 国 的 农业 总 产值 有 显著 拉动 效应 ， 说 明 “ 谷 贱 伤 家 ”的 道理 
在 我 国 是 存在 的 , 受灾 面积 的 扩大 会 带 来 产量 的 降低 , 但 这 却 能 带 来 价格 的 提高 , 而 且 价格 提 
高 的 幅度 要 更 大 ， 造 成 总 价值 也 会 提高 。 
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22.7 ”因子 分 析 


对 于 因子 分 析 ， 准 备 从 以 下 两 部 分 进行 : 


。 对 “粮食 产量 "”“ 杭 花 产量 "“ 油 料 产量 ”“ 麻 类 产量 "”“ 甘 莽 产 量 "“ 甜 某 产 量 ”“ 烟 叶 
产量 "“ 茶 叶 产量 "”“ 水 果 产 量 ”9 种 农产品 产量 变量 提取 人 因子. 

。 对 “ 合 物 单位 面积 产量 ”“ 樟 花 单 位 面积 产量 "”“ 花 生 单位 面积 产量 "”“ 油 菜 籽 单位 面 
积 产量 ”“ 芝 床单 位 面积 产量 "”“ 黄 红 麻 单位 面积 产量 ”“ 甘 芒 单 位 面积 产量 ”“ 烧 烟 单 
位 面积 产量 *” “甜菜 单位 面积 产量 ”9 种 作物 单位 面积 产量 提取 公 因 子 。 


1. 对 “粮食 产量 ” “棉花 产量 ” “油料 产量 ”“ 麻 类 产量 ” “甘蔗 产量 ” “甜菜 产量 ” 
“烟叶 产量 ”“ 茶 叶 产量 ”“ 水 果 产 量 ”9 种 农产品 产量 变量 提取 公 因子 


操作 步骤 如 下 : 


四 进入 Stata 14.0， 打 开 相 关 数据 文件 ， 弹 出 主 界面 。 
加 在 主 界面 的 “Command” 文 本 框 中 分 别 输入 如 下 命令 并 按键 盘 上 的 回 车 键 进行 确认 。 


。 ”factor var3-varll,pcf: 本 命令 的 含义 是 采用 主 成 分 因子 法 对 变量 V3~V11 进行 因子 分 
析 。 

rotate: 本 命令 的 含义 是 采用 最 大 方差 正 交 旋转 法 对 因子 结构 进行 旋转 。 
loadingplot,factors(2) yline(0) xline(0): 本 命令 的 含义 是 绘制 因子 旋转 后 的 因子 载荷 图 。 
predict fl 亿 f3 伺 : 本 命令 的 含义 是 展示 因子 分 析 后 各 个 样本 的 因子 得 分 情况 。 
correlate 有 亿 f3 他: 本 命令 的 含义 是 展示 系统 提取 的 4 个 主因 子 的 相关 系数 矩阵 。 
scoreplot,mlabel(var1) yline(0) xline(0): 本 命令 的 含义 是 展示 每 个 样本 的 因子 得 分 示意 
图 。 

。 estat kmo: 本 命令 的 含义 是 展示 本 例 因子 分 析 的 KMO 检验 结果 。 

。 screeplot: 本 命令 的 含义 是 展示 本 例 因 子 分 析 所 提取 的 各 个 因子 的 特征 值 碎 石 图 。 


加 设置 完毕 后 ， 等 待 输出 结果 。 


在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 22.45~ 图 22.53 所 示 的 分 析 结 果 。 
图 22.45 展示 的 是 因子 分 析 的 基本 情况 。 


. factor var3-varll,pcf 


(obs=31) 

Factor analysis/correlation Number of obs = 31 
Nethod: principal-component factors Retained factors = a 
Rotation: (unrotated) Number of params = 30 

Factor Eigenvalue 。 Difference Proporcion ”Cumulative 
Factor1 3.03466 0.99734 0.3372 0.3372 
Faccor2 2.03732 0.76071 0.2264 0.5636 
Factor3 1.27661 0.24494 0.1418 0.7054 
Faccor4 1.03167 0.43893 0.1146 0.8200 
Faccor5 0.59274 0.03324 0.0659 0.8859 
Factor6 0.55950 0.24044 0.0622 0.9481 
Factor7 0.31906 0.22779 0.0355 0.9835 
FaccorB 0.09127 0.03411 0.0101 0.9936 
Factorg 0.05716 0.0064 1.0000 


LR test: independent vs. saturated: chi2(36) = 146.83 Prob>chi2 = 0.0000 


Factor loadings (pattern matrix) and unique variances 


Variable | Factorl Factor2 Factor3 Factor4 Uniqueness 
var3 0.7991 0.0942 -0.2816 -0.0513 0.2706 
var4 0.4026 0.7413 0.3957 0.1003 0.1216 
vars 0.9031 -0.0716 -0.3141 -0.1011 0.0703 
var6 0.7698 -0.1014 0.2438 -0.1509 0.3149 
var7 | -0.0032 -0.2788 0.1363 。 0.9212 0.0551 
vare 0.1585 0.7858 0.5177 0.0419 0.0876 
var9 0.3697 -0.5872 0.4814 -0.0268 0.2861 

vari0 0.3534 -0.6398 0.4809 -0.1173 0.2207 
varll 0.7341 0.1180 -0.3648 0.3482 0.1928 


22.45 ”因子 分 析 结 果 图 1 


图 22.45 的 上 半 部 分 说 明 是 因子 分 析 模 型 的 一 般 情况 ， 从 图 中 可 以 看 出 共有 31 个 样本 
(Number of obs= 31) 参与 了 分 析 ， 提 取保 留 的 因子 共有 4 个 (Retained factors = 4) ， 模 型 
LR 检验 的 卡 方 值 (LR test: independent vs. saturated: chi2(36)) 为 146.83, P 值 (Prob>chi2) 
为 0.0000， 模 型 非常 显著 。 图 22.45 的 上 半 部 分 最 左 列 〈Factor) 说 明 的 是 因子 名 称 ， 可 以 看 
出 模型 共 提取 了 9 个 因子 。Eigenvalue 列表 示 的 是 提取 因子 的 特征 值 情况 ， 只 有 前 4 个 因子 的 
特征 值 是 大 于 1 的 ， 其 中 第 1 个 因子 的 特征 值 是 3.03466， 第 2 个 因子 的 特征 值 是 2.03732。 
Proportion 列表 示 的 是 提取 因子 的 方差 贡献 率 ， 其 中 第 1 个 因子 的 方差 贡献 率 为 33.72%， 第 2 
个 因子 的 方差 贡献 率 为 22.64%。Cumulative 列表 示 的 是 提取 因子 的 累计 方差 贡献 率 ， 其 中 前 
两 个 因子 的 累计 方差 贡献 率 为 56.36% 。 

图 22.45 的 下 半 部 分 说 明 的 是 模型 的 因子 载荷 矩阵 以 及 变量 的 未 被 解释 部 分 。 其 中 
Variable 列表 示 的 是 变量 名 称 ，Factor1、Factor2、Factor3 、Factor4 这 4 列 分 别 说 明 的 是 提取 
的 前 4 个 主因 子 (特征 值 大 于 1 的 ) 对 各 个 变量 的 解释 程度 ， 本 例 中 ，Factorl 主要 解释 的 是 
V3、V5、V6、V11 这 4 个 变量 的 信息 ，Factor2 主要 解释 的 是 V4、V8 变量 的 信息 ，Factor3 
主要 解释 的 是 V9、V10 这 2 个 变量 的 信息 ，Factor4 主要 解释 的 是 V7 变量 的 信息 。Uniqueness 
列表 示 变 量 未 被 提取 的 前 4 个 主因 子 解释 的 部 分 ,可 以 发 现在 舍弃 其 他 主因 子 的 情况 下 , 信息 
的 损失 量 是 比较 小 的 。 

图 22.46 展示 的 是 对 因子 结构 进行 旋转 的 结果 。 经 研究 表明 ， 旋 转 操作 有 助 于 进一步 简化 
因子 结构 。Stata 14.0 支持 的 旋转 方式 有 两 种 : 一 种 是 最 大 方差 正 交 旋转 ， 一 般 适 用 于 相互 独 
立 的 因子 或 者 成 分 ， 也 是 系统 默认 的 情况 ， 另 一 种 是 Promax 斜 交 旋转 ， 它 允许 因子 或 者 成 分 之 
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间 存 在 相关 关系 。 此 处 我 们 选择 系统 默认 方式 ， 当 然后 面 的 操作 也 证 明了 这 种 方式 的 恰当 性 。 


Variance Difference Proportion Cumulative 
Fat 2.66253 0.82391 0.2958 0.2958 
Far 1.83862 0.03007 0.2043 0.5001 
Far 1.80854 0.73797 0.2009 0.7011 
Far 1.07058 > 0.1190 0.8200 
LR teasl ndent vs. saturated: chi2(36) = 146.83 Prob>ch-2 = 0.0000 
Fotated factor loadings (pattern matrix) and unique variances 
Variable | Factorl Factor2 Factor3 Factor4 Uniqueness 
var3 0.8384 0.1076 0.0705 -0.0998 0.2706 
vars 0.2145 0.9110 -0.0486 -0.0062 0.1216 
var5 0.9356 -0.0172 0.1986 -0.1206 0.0703 
var6 0.5594 0.2438 。 0.5487 -0.1079 0.3149 
var7 | -0.0224 -0.0510 0.0899 。 0.9663 0.0551 
varB | -0.0592 0.9485 -0.0769 -0.0585 0.0876 
var9 0.0831 -0.0829 0.8264 。 0.1313 0.2861 
varl0 0.0613 -0.1362 0.8684 0.0529 0.2207 
varll 0.8430 0.0986 -0.0982 0.2779 0.1928 
Fact acion mar 
Factor: 1 Factor: 2 Factor3 Faccor4 
Factor: 1 | 0.8877 0.2534 0.3843 -0.0051 
Factor; 2 | 0.0420 0.7702 -0.6073 -0.1904 
Factor: 3 | -0.4547 0.5779 0.6705 0.0986 
Factor: 4 | 0.0587 0.0931 -0.1841 0.9767 


22.46 ”因子 分 析 结果 图 2 


图 22.46 包括 3 部 分 内 容 , 第 1 部 分 说 明 的 是 因子 旋转 模型 的 一 般 情况 ， 从 图 中 可 以 看 出 
共有 31 个 样本 (Number of obs =31) 参与 了 分 析 , 提取 保留 的 因子 共有 4 个 (Retained factors 
= 4) ， 模 型 LR 检验 的 卡 方 值 (LR test: independent vs. saturated: chi2(36)) 为 146.83, P 值 

(Prob>chi2) 为 0.0000， 模 型 非常 显著 。 最 左 列 (Factor) 说 明 的 是 因子 名 称 ， 可 以 看 出 模型 
旋转 后 共 提 取 了 4 个 因子 。Proportion 列表 示 的 是 提取 因子 的 方差 贡献 率 ， 其 中 第 1 个 因子 的 
方差 贡献 率 为 29.58%， 第 2 个 因子 的 方差 贡献 率 为 20.43%。Cumulative 列表 示 的 是 提取 因子 
的 累计 方差 贡献 率 ， 其 中 前 两 个 因子 的 累计 方差 贡献 率 为 50.01%。 

图 22.46 的 第 2 部 分 说 明 的 是 模型 的 因子 载荷 矩阵 以 及 变量 的 未 被 解释 部 分 。 其 中 Variable 
列表 示 的 是 变量 名 称 ，Factor1、Factor2 两 列 分 别 说 明 的 是 旋转 提取 的 两 个 主因 子 对 各 个 变量 
的 解释 程度 ， 本 例 中 ，Factorl 主要 解释 的 是 V3、V5、V6、V11 这 4 个 变量 的 信息 ，Factor2 
主要 解释 的 是 V4、V8 变量 的 信息 ，Factor3 主要 解释 的 是 V6、V9、V10 这 3 个 变量 的 信息 ， 
Factor4 主要 解释 的 是 V7 这 个 变量 的 信息 。Uniqueness 列表 示 变 量 未 被 提取 的 前 4 个 主因 子 解 
释 的 部 分 ， 可 以 发 现在 舍弃 其 他 主因 子 的 情况 下 ， 信 息 的 损失 量 是 很 小 的 。 

图 22.46 的 第 3 部 分 展示 的 是 因子 旋转 矩阵 的 一 般 情况 , 提取 的 4 个 因子 相关 关系 不 明显 。 

图 22.47 展示 的 是 因子 旋转 后 的 因子 载荷 图 。 因 子 载荷 图 可 以 使 用 户 更 加 直观 地 看 出 各 个 
变量 被 前 两 个 因子 的 解释 情况 。 

与 前 面 的 分 析 相 同 ， Factorl 主要 解释 的 是 V3、V5、V6、V11 这 4 个 变量 的 信息 ，Factor2 
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图 22.48 展示 的 是 因子 分 析 后 各 个 样本 的 因子 得 分 情况 。 因 子 得 分 的 概念 是 通过 将 每 个 变 
量 标准 化 为 平均 数 等 于 0 和 方差 等 于 1, 然后 以 因子 分 析 系 数 进行 加 权 合计 为 每 个 因子 构成 的 
线性 情况 。 以 因子 的 方差 贡献 率 为 权 数 对 因子 进行 加 权 求 和 , 即 可 得 到 每 个 样本 的 因子 综合 得 
分 。 

根据 图 22.48 展示 的 因子 得 分 系数 矩阵 ， 可 以 写 出 各 公 因 子 的 表达 式 。 值 得 一 提 的 是 ,在 
表达 式 中 各 个 变量 已 经 不 是 原始 变量 而 是 标准 化 变量 。 


Factor loadings 


| predict £1 £2 £3 £4 
nscorirg assuned| 


nca (method = regresslon; Lased on varlmax rocared facroral 


Variable | Tactorl Factor2 Factory Factcr4 


var3 | 90.33310 -0.02975 -0.06566 -0.08043 
var4 | -9.00218 0.50206 0.01996 0.05557 
vars | 9.35985 -0.10295 -0.01123 -0.11476 
var6 | 9.12768 0.12268 0.28270 -0.11582 
var7 | -9.00278 0.03914 -0.01013 0.90870 
varB | -9.11944 0.54843 0.05025 0.00596 
var9 | -9.07692 0.02436 0.47946 0.06613 
varl0 | -9.08776 -0.00527 0.50899 -0.01468 
varll | 90.35692 -0.02777 -0.19594 0.28918 


图 22.47 因子 分 析 结 果 图 3 图 22.48 ”因子 分 析 结 果 图 4 
表达 式 如 下 : 
F1= 0.33310* 粮 食 产 量 -0.00218* 棉 花 产 量 + 0.36885* 油 料 产 量 + 0.12768* 麻 类 产量 


-0.00278* 甘蔗 产量 -0.11944* 甜菜 产量 -0.07692* 烟叶 产量 -0.08776* 茶叶 产量 + 
0.36692* 水 果 产 量 


F2= -0.02975* 粮 食 产 量 + 0.50206* 棉 花 产量 -0.10295* 油料 产量 + 0.12268* 麻 类 产量 + 
0.03914* 甘 蔗 产 量 + 0.54843* 甜 菜 产 量 + 0.02436* 烟 叶 产 量 -0.00527* 茶 叶 产 量 -0.02777 
* 水 果 产 量 


F3= -0.06566* 粮 食 产 量 + 0.01996 * 棉 花 产 量 -0.01123* 油 料 产 量 + 0.28270* 麻 类 产量 
-0.01013 * 甘 蔗 产 量 + 0.05025* 甜 菜 产 量 + 0.47946* 烟 叶 产 量 + 0.50899* 茶 叶 产 量 
-0.19594* 水 果 产量 


F4= -0.08043* 粮食 产量 + 0.05557* 棉花 产量 -0.11476* 油料 产量 -0.11582* 麻 类 产量 + 
0.90870* 甘蔗 产量 + 0.00596* 甜 菜 产 量 + 0.06613* 烟叶 产量 -0.01468* 茶 叶 产 量 + 
0.28918* 水 果 产 量 

选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 

到 如 图 22.49 所 示 的 因子 得 分 数据 。 
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var36 var7y -varse 位 全 
站 日” 120.2123 42.78773 [-.3642233] 
2 gl 22 日 433.7265 -253.7265 
130. 528.1 37242.9 1883.747 #95.2526 
4 lols S44 S7015.9 751.2806 15.71944 
5 2016.6 S08.7 40221.8 S18. 712 233.688 Bs EE 
€ 450.2 173.1 44482 1499.153 -192.1529 |! 
7 eae.4 2217 32481.8 S48.4979 471.5021 
B536.8 682.5 33526.3 1791.557 10.44254 
1 24.3 9.2 0 739.9992 -574.9992 804 
20 1032.1 332.7 5 2538.34 102.6573 晤 
1 59 日 “1708.353 -556.3528 
2 238.5 日 “2950.885 -0615.8851 
3 .3 日 “1041.093 34.96683 
24 753 126.7 日 1523.193 -605.1925 
172 日 “3549.623 294.3768 
下 1477.6 340.2 日 “2727.303 872.6967 
7 seo 790.3 日 “3902.973 -603.9734 
下。 2374.8 95 日 “2274.177 17.8231 
19 sol.7 lle. 日 ”1046.151 1001.649 
20 407.9 ee 日 1447.388 154.6124 
21 se. ae 日 lozo.373 -619.2731 
2 a16 80.5 日 ”991.9919 -240.992 


33 1538.2 720.7 17020.4 1862.682 。 591.3181 
34 25702 1961.7 4365.9 1497.381 -842.3813 


22.49 ”因子 分 析 结 果 图 5 
22.50 展示 的 是 系统 提取 的 4 个 主因 子 的 相关 系数 矩阵 。 


,correlate £1 £2 £3 £4 
(obs=31) 


-0.0000 1.0000 
-0.0000 0.0000 1.0000 


图 22.50 ”因子 分 析 结果 图 6 


从 图 22.50 中 可 以 看 出 , 提取 的 4 个 主因 子 之 间 几 乎 没有 什么 相关 关系 ,这 也 说 明了 在 前 
面 对 因 子 进行 旋转 的 操作 环节 中 采用 最 大 方差 正 交 旋 转 方式 是 明智 的 。 值 得 说 明 的 是 , 图 中 有 
的 相关 系数 是 -0.0000 并 非 是 不 正确 的 , 这 是 因为 Stata 14.0 只 保留 了 4 位 小 数 所 导致 ,例如 真 
实 的 数据 有 可 能 是 -0.00001， 那 么 结果 显示 的 就 是 -0.0000。 

图 22.51 展示 的 是 每 个 样本 在 前 两 个 主因 子 维度 上 的 因子 得 分 示意 图 。 


Score variables (factor) 


图 22.51 因子 分 析 结果 图 7 
从 图 22.51 中 可 以 看 出 ， 所 有 的 样本 被 分 到 4 个 象限 ， 可 以 比较 直观 地 看 出 各 个 样本 的 因 
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子 得 分 分 布 情况 。 
图 22.52 展示 的 是 本 例 因 子 分 析 的 KMO 检验 结果 。 
KMO 检验 是 为 了 看 数据 是 否 适合 进行 因子 分 析 , 其 取 值 范围 是 0~1。 其 中 ,0.9~1 表示 极 
好 、0.8~0.9 表示 可 奖励 的 、0.7~0.8 表示 还 好 、0.6~0.7 表示 中 等 。 本 例 中 总 体 (Overall) KMO 
的 取 值 为 0.4580， 表 明 因 子 分 析 的 效果 是 差强人意 的 。 
图 22.53 展示 的 是 本 例 因 子 分 析 所 提取 的 各 个 因子 的 特征 值 碎 石 图 。 


rs 


Scree plot of eigenvalues after factor 


| estat kmo 


Fkaiser-Meyer-Olkin measure of sampling adequacy 


0 2 4 6 8 10 
Number 


图 22.52 因子 分 析 结 果 图 8 图 22.53 ”因子 分 析 结 果 图 9 


碎 石 图 可 以 非常 直观 地 观测 出 提取 因子 的 特征 值 大 小 情况 。 图 22.53 的 横 轴 表示 的 是 系统 
提取 因子 的 名 称 ， 并 且 已 经 按 特 征 值 大 小 进行 降序 排列 好 ， 纵 轴 表 示 因 子 特 征 值 的 大 小 情况 。 
从 图 22.53 中 可 以 轻松 地 看 出 本 例 中 只 有 前 4 个 因子 的 特征 值 是 大 于 1 的 。 


2. 对 “谷物 单位 面积 产量 ”“ 棉 花 单位 面积 产量 ”“ 花 生 单位 面积 产量 ”“ 油 菜 籽 单位 
面积 产量 ” “芝麻 单位 面积 产量 ”“ 黄 红 麻 单 位 面积 产量 ” “甘蔗 单位 面积 产量 ”“ 烤 
烟 单位 面积 产量 ”“ 甜 菜单 位 面积 产量 ”9 种 作物 单位 面积 产量 提取 公 因 子 


操作 步骤 如 下 : 


进入 Stata 14.0， 打 开 相 关 数 据 文 件 ， 弹 出 主 界面 。 
贺 在 主 界面 的 “Command” 文 本 框 中 分 别 输入 如 下 命令 并 按键 盘 上 的 回 车 键 进行 确认 。 


® factor var28 var29 var30 var31 var32 var33 var34 var35 var38,pcf: 本 命令 的 含义 是 采 
用 主 成 分 因子 法 对 9 种 作物 单位 面积 产量 变量 进行 因子 分 析 。 

。 rotate: 本 命令 的 含义 是 采用 最 大 方差 正 交 旋 转 法 对 因子 结构 进行 旋转 。 

。 ”loadingplot,factors(2) yline(0) xline(0): 本 命令 的 含义 是 绘制 因子 旋转 后 的 因子 载荷 图 。 

。 predictfl 亿 人: 本 命令 的 含义 是 展示 因子 分 析 后 各 个 样本 的 因子 得 分 情况 。 

。 correlate fl 亿 分 : 本 命令 的 含义 是 展示 系统 提取 的 3 个 主因 子 的 相关 系数 矩阵 。 

® Scoreplobmlabel(varl) yline(0) xline(0): 本 命令 的 含义 是 展示 每 个 样本 的 因子 得 分 示意 
图 。 

。 estat kmo: 本 命令 的 含义 是 展示 本 例 因子 分 析 的 KMO 检验 结果 。 

。 screeplot: 本 命令 的 含义 是 展示 本 例 因 子 分 析 所 提取 的 各 个 因子 的 特征 值 碎 石 图 。 
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加 设置 完毕 后 ， 等 待 输出 结果 。 


在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 22.54~ 图 22.62 所 示 的 分 析 结 果 。 
图 22.54 展示 的 是 因子 分 析 的 基本 情况 。 


， factor var28 var29 var30 war31 var32 var33 var34 var35 var38,pcf 


(obs=31) 
Factor analysis/correlation Nuiber of obs = 31 
Nethod: principal-component factors Retained factors = 3 
Rotation: (unrotated) Number of params = 24 
Factor Eigenvalue Difference Proportion Cumulative 
Factorl 2.66907 0.71186 0.2966 0.2966 
Faccor2 1.95722 0.83410 0.2175 0.5140 
Facror: 3 1.12312 0.14748 0.1248 0.6388 
Faccor4 0.97564 0.28254 0.1084 0.7472 
Factor5 0.69310 0.05938 0.0770 0.8242 
Factor6 0.63373 0.23696 0.0704 0.8947 
Factor7 0.39676 0.05606 0.0441 0.9387 
Factor8 0.34070 0.13005 0.0379 0.9766 
Faccor9 0.21066 : 0.0234 1.0000 


LR test: independent vs. saturated: chi2(36) = 71.63 Prob>chi2 = 0.0004 


Factor loadings (pattern matrix) and unique variances 


Variable | Factorl Factor2 Factor3 Uniqueness 
var28 0.6222 0.3808 。 0.0484 0.4655 
var29 0.2614 0.6981 -0.2271 0.3927 
var30 0.7382 0.4135 -0.0782 0.2779 
var3l | -0.0019 -0.0111 0.6844 0.5314 
var32 0.7760 0.2766 -0.1581 0.2963 
var33 0.7326 -0.3723 0.1796 0.2924 
var34 0.5862 -0.5687 -0.0169 0.3327 
var35 | -0.1664 0.1734 0.7275 0.4129 


var38 | -0.3980 0.7649 0.0881 0.2487 


22.54 ”因子 分 析 结果 图 10 


图 22.54 的 上 半 部 分 说 明 的 是 因子 分 析 模型 的 一 般 情 况 ， 从 图 中 可 以 看 出 共有 31 个 样本 
(Number of obs = 31) 参与 了 分 析 ， 提 取保 留 的 因子 共有 3 个 〈Retained factors = 3) ， 模 型 
LR 检验 的 卡 方 值 (LR test: independent vs. saturated: chi2(36)) 为 71.63，P 值 (Prob>chi2) 为 
0.0004， 模 型 非常 显著 。 上 半 部 分 最 左 列 〈Factor) 说 明 的 是 因子 名 称 ， 可 以 看 出 模型 共 提取 
了 9 个 因子 。Eigenvalue 列表 示 提 取 因 子 的 特征 值 情况 , 只 有 前 3 个 因子 的 特征 值 是 大 于 !1 的 ， 
其 中 第 1 个 因子 的 特征 值 是 2.66907， 第 2 个 因子 的 特征 值 是 1.95722。Proportion 列表 示 的 是 
提取 因子 的 方差 贡献 率 ， 其 中 第 1 个 因子 的 方差 贡献 率 为 29.66%， 第 2 个 因子 的 方差 贡献 率 
为 21.75%。Cumulative 列表 示 的 是 提取 因子 的 累计 方差 贡献 率 ， 其 中 前 两 个 因子 的 累计 方差 
页 献 率 为 51.40%。 

图 22.54 的 下 半 部 分 说 明 的 是 模型 的 因子 载荷 矩阵 以 及 变量 的 未 被 解释 部 分 。 其 中 
Variable 列表 示 的 是 变量 名 称 ，Factorl 、Factor2、Factor3 这 3 列 分 别 说 明 的 是 提取 的 前 3 个 
主因 子 (特征 值 大 于 1 的 ) 对 各 个 变量 的 解释 程度 ， 本 例 中 ，Factorl 主要 解释 的 是 V28、V30、 
V32、V33、V34 这 5 个 变量 的 信息 ，Factor2 主要 解释 的 是 V29、V38 变量 的 信息 ，Factor3 
主要 解释 的 是 V31、V35 这 2 个 变量 的 信息 。Uniqueness 列表 示 变 量 未 被 提取 的 前 4 个 主因 子 
解释 的 部 分 ， 可 以 发 现在 舍弃 其 他 主因 子 的 情况 下 ， 信 息 的 损失 量 是 比较 小 的 。 

图 22.55 展示 的 是 对 因子 结构 进行 旋转 的 结果 。 学 者 们 的 研究 表明 ， 旋 转 操作 有 助 于 进一步 
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简化 因子 结构 。Stata 14.0 支持 的 旋转 方式 有 两 种 : 一 种 是 最 大 方差 正 交 旋 转 ， 一 般 适用 于 相互 独 
立 的 因子 或 者 成 分 ， 也 是 系统 默认 的 情况 ; 另 一 种 是 Promax 斜 交 旋转 ， 它 允许 因子 或 者 成 分 之 
间 存 在 相关 关系 。 此 处 选择 系统 默认 方式 ， 当 然后 面 的 操作 也 证 明了 这 种 方式 的 恰当 性 。 


rotate 
Number of ob 31 
Retained fact. 3 
ser off) Nunber of params = 24 
Factor Variance Difference Proportion Cumulative 
Faccor 1 2.43122 0.24254 0.2701 0.2701 
Factorz 2.18868 1.05916 0.2432 0.5133 
Faccor3 1.12951 0.1255 0.6388 


LR test: independent vs. saturated: chi2(36) = 71.63 Prob>chiz = 0.0004 


Rotated factor loadings (pattern matrix) and unique variances 


Variable | Factorl Factor2 Factor3 Uniqueness 
var28 0.7285 0.0512 0.0342 0.4655 
var29 0.6133 -0.4346 -0.2058 0.3927 
var30 0.8402 。 0.0823 -0.0967 0.2779 
var31 0.0021 0.0566 0.6822 0.5314 
var32 0.7955 0.2324 0.1302 0.2963 
var33 0.3855 0.7376 0.1218 0.2924 
var34 0.1497 0.7994 。 -0.0761 0.3327 
var35 | -0.0249 -0.1854 。 0.7430 0.4129 
var38 0.1184 -0.8460 0.1469 0.2487 

Fact. tation marri 


Factorl Factor2 Factor3 


Factorl | 0.8162 0.5754 -0.0531 
Factor2 | 0.5776 -0.8148 0.0495 


tor: 
Facror3 | 0.0147 0.0711 0.9974 


22.55 ”因子 分 析 结 果 图 11 


图 22.55 包括 3 部 分 内 容 , 第 1 部 分 说 明 的 是 因子 旋转 模型 的 一 般 情况 ， 从 图 中 可 以 看 出 
共有 31 个 样本 (Number of obs =31) 参与 了 分 析 , 提取 保留 的 因子 共有 3 个 (Retained factors 
= 3) ， 模 型 LR 检验 的 卡 方 值 (LR test: independent vs. saturated: chi2(36)) 为 71.63, P 值 

(Prob>chi2) 为 0.0004， 模 型 非常 显著 。 最 左 列 (Factor) 说 明 的 是 因子 名 称 ， 可 以 看 出 模型 
旋转 后 共 提 取 了 3 个 因子 。Proportion 列表 示 的 是 提取 因子 的 方差 贡献 率 ， 其 中 第 1 个 因子 的 
方差 贡献 率 为 27.01%， 第 2 个 因子 的 方差 贡献 率 为 24.32%。Cumulative 列表 示 的 是 提取 因子 
的 累计 方差 贡献 率 ， 其 中 前 两 个 因子 的 累计 方差 贡献 率 为 51.33%。 

图 22.55 的 第 2 部 分 说 明 的 是 模型 的 因子 载荷 矩阵 以 及 变量 的 未 被 解释 部 分 .其 中 Variable 
列表 示 的 是 变量 名 称 ，Factor1、Factor2、Factor3 这 3 列 分 别 说 明 的 是 旋转 提取 的 3 个 主因 子 
对 各 个 变量 的 解释 程度 ， 本 例 中 ，Factorl 主要 解释 的 是 V28、V29、V30、V32 这 4 个 变量 的 
信息 ，Factor2 主要 解释 的 是 V33、V34、V38 变量 的 信息 ，Factor3 主要 解释 V31、V35 这 2 
个 变量 的 信息 。Uniqueness 列表 示 变 量 未 被 提取 的 前 3 个 主因 子 解释 的 部 分 , 可 以 发 现在 舍弃 
其 他 主因 子 的 情况 下 ， 信 息 的 损失 量 是 很 小 的 。 

图 22.55 的 第 3 部 分 展示 的 是 因子 旋转 矩阵 的 一 般 情 况 , 提取 的 3 个 因子 相关 关系 不 明显 。 

图 22.56 展示 的 是 因子 旋转 后 的 因子 载荷 图 。 因 子 载荷 图 可 以 使 用 户 更 加 直观 地 看 出 各 个 
变量 被 前 两 个 因子 解释 的 情况 。 
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Rotation ofthogonal varmax 
Method: princpal-component facors 


22.56 


因子 分 析 结 果 图 12 
与 前 面 的 分 析 相 同 ， Factorl 主要 解释 的 是 V28、V29、V30、V32 这 4 个 变量 的 信息 ， 


Factor2 主要 解释 的 是 V33、V34、V38 变量 的 信息 。 


图 22.57 展示 的 是 因子 分 析 后 各 个 样本 的 因子 得 分 情况 。 因 子 得 分 的 概念 是 通过 将 每 个 变量 
标准 化 为 平均 数 等 于 0 和 方差 等 于 1， 然 后 以 因子 分 析 系 数 进行 加 权 合 计 为 每 个 因子 构成 的 线性 
情况 。 以 因子 的 方差 贡献 率 为 权 数 对 因子 进行 加 权 求 和 ， 即 可 得 到 每 个 样本 的 因子 综合 得 分 。 


predict £1 £2 £3 
regression scoring assumed) 


Peoring coetficients (method = regression; based on varimax rotated factors) 


Variable 


Factor2 


Factor3 


var28 
varz9 
var30 
var31 
var32 
var33 
var34 
var35 
var38 


-0.02130 
-0.24865 
-0.01794 


0.04752 
0.06214 
0.32427 
0.36204 


-0.06204 
-0.39866 


0.04028 
-0.18922 
-0.07367 
0.60756 
0.13201 
0.13553 
-0.04104 
0.65376 
0.10552 


图 22.57 因子 分 析 结 果 图 13 
根据 图 22.57 展示 的 因子 得 分 系数 和 矩阵， 可 以 写 出 各 公 因 子 的 表达 式 。 值 得 一 提 的 是 , 在 


表达 式 中 各 个 变量 已 经 不 是 原始 变量 而 是 标准 化 变量 。 


表达 式 如 下 : 


F1= 0.30328* 谷 物 单位 面积 产量 + 0.28300* 棉 花 单位 面积 产量 + 0.34675* 花 生 单 位 面积 产 
量 + 0.00511* 油 菜 闻 单位 面积 产量 + 0.32100* 芝 麻 单 位 面积 产量 + 0.11651* 黄 红 麻 单位 
面积 产量 + 0.01118* 甘 茂 单 位 面积 产量 + 0.00985* 烧 烟 单位 面积 产量 + 0.10523*# 甜 菜单 


位 面积 产量 


F2= -0.02130* 谷 物 单位 面积 产量 -0.24865* 棉 花 单位 面积 产量 -0.01794* 花 生 单 位 面积 产量 
+ 0.04752 * 油 菜 籽 单位 面积 产量 +0.06214* 芝 麻 单位 面积 产量 +0.32427*# 黄 红 麻 单位 面 
积 产 量 +0.36204* 甘 蔗 单 位 面积 产量 -0.06204# 烤 烟 单位 面积 产量 -0.39866* 甜 菜单 位 面 


积 产量 
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F3= 0.04028* 谷 物 单位 面积 产量 -0.18922* 棉 花 单位 面积 产量 -0.07367 * 花 生 单 位 面积 产 
量 +0.60756* 油 菜 籽 单位 面积 产量 +0.13201* 芝 麻 单 位 面积 产量 +0.13553* 黄 红 麻 单位 
面积 产量 -0.04104* 甘 蔗 单 位 面积 产量 +0.65376*# 烤 烟 单位 面积 产量 + 0.10552* 甜 菜单 
位 面积 产量 
选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 


到 如 图 22.58 所 示 的 因子 得 分 数据 。 
图 22.59 展示 的 是 系统 提取 的 3 个 主因 子 的 相关 系数 和 矩阵。 


| 


varm Vary varmg vee var7 varys nn n mn 


1 。 。 os 四 ED 
2 9 日 o [9 I. 0 -51588 4508 -2.418312 

1 4 | 

4 。 aa 

5 oo aoce sou7 Antls one ms 

6 。 ap 

7 0 2745 [ 221.7 32481.8 上 TEST 597 042oe 

。 。 ao 
0 796 31107141。 -706697 

1 3596.4 -62764.4 9 3 2539. 了 0 3.040084 .9796219 .69085587 

1 2997.9 39924,7 2701.8 3337.2 198.5 9 7144414 .4972804 .5542756 

2754 e09041 ao D1 03 os05328 23022147 .0ce5452 

35 exo0 Gs 7 is.6 06571798 41457165 

16 S352.8 67398.2 2345 1477.€ 380.z 0 ,a995256 1.261619 .6473755 

7 3430 41651.7 2024,3 2580 730.3 0 83932484 .6601623 ,43393673 

0366 490137 2315132274.8 955 os ous 2502¢ 

9 086 on5s8 2013 SOL7 i0.3 00 .404414 .0971077 

0 2570.9 66599.2 1734.2 4017.9 638.1 -1507787 .264911 -S73152 1.0000 

2 6846.7 64072.7 4 S16.6 198 0 -~.7223284 。 1.800673 -1.424854 0.0000 1.0000 


90.4 34302,7 3951. Me 0.5 -455699 ,3922764 .2152655 
2 ak 405 2017.4 i1528.2 720.7 17020.4 1 008379050 
2346667 96409.9 i051 25702 9.7 1105.9 LE 全 本 


图 22.58 ”因子 分 析 结 果 图 14 图 22.59 因子 分 析 结 果 图 15 


从 图 22.59 中 可 以 看 出 , 提取 的 3 个 主因 子 之 间 几 乎 没有 什么 相关 关系 ,这 也 说 明了 在 前 
面 对 因 子 进行 旋转 的 操作 环节 中 采用 最 大 方差 正 交 旋转 方式 是 明智 的 。 值 得 说 明 的 是 , 图 中 有 
的 相关 系数 是 -0.0000 并 非 是 不 正确 的 , 这 是 因为 Stata 14.0 只 保留 了 4 位 小 数 所 致 ， 例 如 真实 
的 数据 有 可 能 是 -0.00001， 那 么 结果 显示 的 就 是 -0.0000。 

图 22.60 展示 的 是 每 个 样本 在 前 两 个 主因 子 维度 上 的 因子 得 分 示意 图 。 


Score variables (factor) 


-0.0000 -0.0000 1.0000 


22.60 ”因子 分 析 结果 图 16 


从 图 22.60 中 可 以 看 出 ,， 所 有 的 样本 被 分 到 4 个 象限 ， 可 以 比较 直观 地 看 出 各 个 样本 的 因 
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子 得 分 分 布 情况 。 

图 22.61 展示 的 是 本 例 因 子 分 析 的 KMO 检验 结果 。 

KMO 检验 是 为 了 查看 数据 是 否 适合 进行 因子 分 析 ， 其 取 值 范围 是 0~1。 其 中 ,0.9~1 表示 
极 好 ，0.8~0.9 表示 可 奖励 的 ，0.7~0.8 表示 还 好 ，0.6~0.7 表示 中 等 。 本 例 中 总 体 (Overall) 
KMO 的 取 值 为 0.5995， 表 明 因子 分 析 的 效果 是 差强人意 的 。 

图 22.62 展示 的 是 本 例 因 子 分 析 所 提取 的 各 个 因子 的 特征 值 碎 石 图 。 

碎 石 图 可 以 非常 直观 地 观测 出 提取 因子 的 特征 值 的 大 小 情况 。 横 轴 表 示 的 是 系统 提取 因 
子 的 名 称 ， 并 且 已 经 按 特 征 值 大 小 进行 降序 排列 ， 纵 轴 表 示 因 子 特征 值 的 大 小 情况 。 从 图 中 可 
以 轻松 地 看 出 本 例 中 只 有 前 3 个 因子 的 特征 值 是 大 于 1 的 。 


. estat kmo 


Scree plot of eigenvalues after factor 


Kaiser-Meyer-Olkin measure of sampling adequacy 


Variable jano 


var28 | 0.7424 
var29 | 0.5140 
var30 | 0.5655 
var31 | 0.2714 
var32 | 0.7132 
var33 | 0.5845 
var34 | 0.6042 
var35 | 0.2534 
var38 | 0.6493 


Overall | 0.5995 


图 22.61 因子 分 析 结 果 图 17 图 22.62 因子 分 析 结 果 图 18 


22.8 ” 聚 类 分 析 


对 于 聚 类 分 析 ， 准 备 从 3 部 分 进行 操作 : 
。 对 粮食 产品 的 组 成 部 分 (包括 “稻谷 ”“ 小 麦 "” “玉米 ”“ 豆 类”“ 著 类 ”) 变量 进行 聚 
类 。 
。 ”对 水 果 产 品 的 组 成 部 分 ( 包括 “苹果 ”“ 柑 枯 ”“ 梨 ”“ 葡 葡 ”“ 香 蕉 ”) 变量 进行 聚 类 。 
e 对 油料 作物 的 组 成 部 分 ( 包括 “花生 ”“ 油 菜 籽 ”“ 芝 麻 ”) 变量 进行 聚 类 。 
1. 对 粮食 产品 的 组 成 部 分 包括 “稻谷 ”“ 人 小麦 ”“ 玉 米 ”“ 豆 类 ”“ 薯 类 ”等 变量 进行 
聚 类 
观察 到 不 同 变 量 的 数量 级 相差 不 大 ， 所 以 无 须 先 对 数据 进行 标准 化 处 理 ， 直 接 进行 分 析 
即 可 。 
分 析 步 又 如 下 : 
进入 Stata 14.0， 打 开 相 关 数 据 文 件 ， 弹 出 主 界面 。 
贺 在 主 界面 的 “Command” 文 本 框 中 分 别 输入 如 下 命令 并 按键 盘 上 的 回 车 键 进行 确认 。 
本 操作 命令 的 含义 是 设 定 聚 类 数 为 3， 然后 使 用 “K 个 平均 数 的 聚 类 分 析 ” 方 法 对 粮食 产品 的 
组 成 部 分 (包括 “稻谷 "“ 小 麦 ”“ 玉 米 ”“ 豆 类 ”“ 茵 类 ”) 变量 进行 分 析 。 
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cluster kmeans varl3 varl4 varl5 var16 varl7,k(3) 
加 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 22.63~ 图 22.65 所 示 的 分 析 结 果 。 

图 22.63 展示 的 是 设 定 聚 类 数 为 3， 然 后 使 用 “K 个 平均 数 的 聚 类 分 析 ” 方 法 进行 分 析 的 
结果 。 在 输入 Stata 命令 并 且 分 别 按键 盘 上 的 回 车 键 进行 确认 后 ， 可 以 看 到 系统 产生 了 一 个 新 
的 变量 : 聚 类 变量 clus 1 (cluster name: _clus 1) 。 


.Cluster kmeans varl3 varl4 var15 var16 var17,k(3) 


luster name: clus 1 


图 22.63 聚 类 分 析 结 果 图 1 


选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 22.64 所 示 的 聚 类 数据 。 


Er 


Er 
7 


as.9 


图 22.64 麻 关 分 析 结果 国 2 
从 图 22.64 中 可 以 看 到 所 有 的 观测 样本 被 分 为 3 类。 其中， 江西 、 河 南 、 山 东 、 江 苏 、 四 川 、 
湖南 、 河 北 、 湖 北 、 安 徽 被 分 到 第 1 类 ， 吉 林 、 黑 龙 江 被 分 到 第 3 类 ， 其 他 的 省 市 被 分 到 第 2 类 。 


为 观测 3 类 样本 的 特征 ， 可 以 对 数据 进行 排序 操作 ， 在 主 界面 的 “Command” 文 本 框 中 
输入 操作 命令 : 


sort clus 1 


并 按键 盘 上 的 回 车 键 进行 确认 ， 然 后 选择 “Data”| “Data Editor”| “Data Editor(Browse)” 
命令 ， 进 入 数据 查看 界面 ， 可 以 看 到 如 图 22.65 所 示 整 理 后 的 数据 。 
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图 22.65 聚 类 分 析 结 果 图 3 

可 以 看 到 第 1 类 样本 的 特征 是 各 类 粮食 作物 的 产量 普遍 较 高 ， 第 3 类 样本 的 特征 是 稻谷 、 
玉米 、 豆 类 的 产量 大 多 比较 高 , 第 2 类 样本 的 特征 不 明显 ,但 综合 来 看 各 种 作物 的 产量 都 比较 
低 。 


2. 对 水 果 产 品 的 组 成 部 分 (包括 “苹果 ”“ 柑 村 ”“ 梨 ”“ 葡 萄 ”“ 香 莫 ”) 变量 进行 
聚 类 

观察 到 不 同 变量 的 数量 级 相差 不 大 ， 所 以 无 须 先 对 数据 进行 标准 化 处 理 ， 直 接 进行 分 析 
即 可 。 

分 析 步 又 如 下 : 

进入 Stata 14.0， 打 开 相 关 数 据 文 件 ， 弹 出 主 界面 。 

在 主 界面 的 “Command” 文 本 框 中 分 别 输入 如 下 命令 并 按键 盘 上 的 回 车 键 进 行 确认 。 
本 操作 命令 的 含义 是 设 定 聚 类 数 为 3， 然 后 使 用 “K 个 平均 数 的 聚 类 分 析 ” 方 法 对 “苹果 ”“ 柑 
桔 ”“ 梨 ”“ 葡 萄 "“ 香 共 ” 等 变量 进行 分 析 。 


cluster kmeans var23 var24 var25 var26 var27,k(3) 


设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 22.66~ 图 22.68 所 示 的 分 析 结 果 。 

图 22.66 展示 的 是 设 定 聚 类 数 为 3， 然 后 使 用 “K 个 平均 数 的 聚 类 分 析 ” 方 法 进行 分 析 的 
结果 。 在 输入 Stata 命令 并 且 分 别 按键 盘 上 的 回 车 键 进行 确认 后 ， 可 以 看 到 系统 产生 了 一 个 新 
的 变量 : 聚 类 变量 clus 2 (cluster name: clus 2) 。 


. Cluster kmeans var23 var24 var25 var26 var27,k(3) 
cluster name: clus 2 


22.66 ” 聚 类 分 析 结 果 图 4 
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选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 22.67 所 示 的 _clus 2 数据 。 


38 本 性 而 
1 考生 古 
0 个 亚 回 规 白 作 区 


EE 二 四 商 
2 福建 订 

LEE 
35 基期 疝 
26 Re 
3 天 地 让 so . .9 2 T 
28 其 红 商 日 294.4 3g.6 sa.7 日 


图 22.67 育 类 分 析 结 果 图 5 
从 图 22.67 中 可 以 看 到 所 有 的 观测 样本 被 分 为 3 类。 其中， 河南、 辽宁 、 陕 西 、 甘 肃 、 河 
北 被 分 到 第 2 类 ， 山 东 、 陕 西 被 分 到 第 3 类 ， 其 他 的 省 市 被 分 到 第 1 类 。 
为 观测 3 类 样本 的 特征 ， 可 以 对 数据 进行 排序 操作 ， 在 主 界面 的 “Command” 文 本 框 中 
输入 操作 命令 : 
Sort _clus 2 


并 按键 盘 上 的 回 车 键 进行 确认 ， 然 后 选择 “Data”|“Data Editor”|“Data Editor(Browse)” 
命令 ， 进 入 数据 查看 界面 ， 可 以 看 到 如 图 22.68 所 示 整 理 后 的 数据 。 


war varm varte overls verte ， very loss 
4 9 a 


“i 
+ 
a 
日 
于 
加 


山东 宙 。537.3 0 7 3 


图 22.68 到 类 分 析 结果 图 6 
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可 以 看 到 第 1 类 样本 的 特征 是 各 种 水 果 产 品 的 产量 比较 低 ， 第 3 类 样本 的 特征 是 苹果 的 
产量 非常 高 ， 葡 萄 和 梨 的 产量 比较 高 ， 第 2 类 样本 的 特征 是 各 种 作物 的 产量 都 比较 高 。 

3. 对 油料 作物 的 组 成 部 分 (包括 “花生 ”“ 油 菜 籽 ”“ 芝 麻 ”) 变量 进行 聚 类 

观察 到 不 同 变量 的 数量 级 相差 不 大 ， 所 以 无 须 先 对 数据 进行 标准 化 处 理 ， 直 接 进 行 分 析 即 可 。 

分 析 步 骤 如 下 : 

进入 Stata 14.0， 打 开 相关 数据 文件 ， 弹 出 主 界面 。 

加 在 主 界面 的 “Command” 文 本 框 中 分 别 输入 如 下 命令 并 按键 盘 上 的 回 车 键 进行 确认 ， 本 
操作 命令 的 含义 是 设 定 聚 类 数 为 3， 然 后 使 用 “K 个 平均 数 的 聚 类 分 析 ” 方 法 对 “花生 ”“ 油 
菜 闻 "“ 世 麻 ” 等 变量 进行 分 析 。 


Cluster kmeans varl8 var19 var20,k(3) 
加 设置 完毕 后 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 


在 Stata 14.0 主 界面 的 结果 窗口 可 以 看 到 如 图 22.69~ 图 22.71 所 示 的 分 析 结 果 。 

图 22.69 展示 的 是 设 定 聚 类 数 为 3， 然 后 使 用 “K 个 平均 数 的 聚 类 分 析 ” 方 法 进行 分 析 的 
结果 。 在 输入 Stata 命令 并 且 分 别 按键 盘 上 的 回 车 键 进行 确认 后 ， 可 以 看 到 系统 产生 了 一 个 新 
的 变量 : 聚 类 变量 _clus_3 (cluster name: clus 3) 。 


，cluster kmeans varl8 varl9 var20,k(3) 
cluster name: clus 3 


22.69 ” 聚 类 分 析 结 果 图 7 


选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 22.70 所 示 的 _clus_3 数据 。 


varl vars varl9 varzo -clus- 
重庆 而 201 35.1 E 
日 商 州 吉 G1 E o 1 
站 豆 回 米 白 放 区 o o 1 

日 者 商 容 9.8 o 2 1 
< 四 川 雪 ez.7 21 加 3 
7 大 全 调 84.3 122.8 6.2 3 
. 湖 商 容 了 2 182 .4 3 
3 言 点 吉 9 32.7 9 1 
10 广西 壮 炊 自作 区 47.5 1. -6 1 
21 CT 9 .3 9 1 
1z 开 四 有 .7 66.7 3.2 1 
33 三 向 有 7 S18 o 1 
14 医 红 浴 Se4 21.6 .3 1 
1 内 期 古 自贡 区 3.1 24 2 1 
46 ”条 三 礁 下 汞 自 他 区 3.3 15.2 1 1 
1 开 荔 宙 37 a05.2 1 
18 福娃 亩 25.7 2. 这 
日 上 霉 布 2 1.6 o 1 
20 出 北 言 7 20. ‘4.6 3 
21 吉林 罕 36 o .4 1 
22 于 龙 江 吝 s 1 1 
广东 宕 0 1 
天 津南 5 © 1 

2 柯南 省 429.8 3 24.1 2 
26 江宁 窗 116.s a 2 1 
27 山西 大 2.z .6 vs 1 
28 甘 腿 罕 -3 1 o 1 
29 本 北大 128.9 3 1 1 
30 山东 寿 338.6 2.2 1 2 
31 肤 西 宪 9.3 38.4 2.4 1 


22.70“ 聚 类 分 析 结果 图 8 
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从 图 22.70 中 可 以 看 到 所 有 的 观测 样本 被 分 为 3 类 。 其 中 ,河南 、 山 东 被 分 到 第 2 类 ， 


微 、 四 川 、 湖 北 、 湖 南 、 江 苏 被 分 到 第 3 类 ， 其 他 的 省 市 被 分 到 第 1 类 。 


\\ANANAN WAN 


、 


为 观测 3 类 样本 的 特征 ， 可 以 对 数据 进行 排序 操作 ， 在 主 界面 的 “Command” 文 本 框 中 


输入 操作 命令 : 


sort clus 3 


并 按键 盘 上 的 回 车 键 进行 确认 ， 然 后 选择 “Data”| “Data Editor”| “Data Editor(Browse)” 


命令 ， 进 入 数据 查看 界面 ， 可 以 看 到 如 图 22.71 所 示 的 整理 后 的 数据 。 


varl varls varls varz0 clus_3 
2 条 大 妈 秋 尔 自 洛 区 1.3 15.2 1 
3 广西 壮 米 白 褒 区 47.5 1.6 .6 1 
4 天 二 南 5 o 9 1 
5 昭和 交还 省 5.7 rr 1 1 
6 内 蒙古 自治 区 3.1 24 2 1 
7 概 建 省 25.7 1.6 a 1 
s 上 海南 2 1.6 9 1 
9 育 老 窑 o 32.7 9 1 
10 山西 省 2 -6 5 1 
1 其 江 有 Se4 33.6 3 1 
2 秽 州 害 G1 71.8 9 1 
33 CLL 9 6.3 9 1 
14 了 可 加 米 自 沙 区 o EI 9 1 
45 言 休 省 36 0 1.4 
16 映 四 宙 3.3 38.4 2.4 1 
17 三 向 省 7 51.8 9 1 
18 广东 省 90.8 EE 3 1 
19 重庆 市 10.1 35.4 7 1 
20 间 北 省 128.9 3 人 
21 这 西 省 43.7 66.7 3.2 1 
22 甘 遍 省 .3 39.4 9 1 
23 北京 市 1.3 0 9 1 
24 页 向 兴 9.8 0 2 1 
25 阿南 429.8 77.3 24.1 2 
26 山东 省 398.6 2.2 1 2 
27 实 葡 吉 84.3 122.8 2 3 
28 四 川 害 62.7 214.4 5 3 
29 戎 北 许 68.7 220.4 14.6 了 


22.71 ” 聚 类 分 析 结果 图 9 


可 以 看 到 第 3 类 样本 的 特征 是 油菜 籽 的 产量 非常 高 ， 花 生 和 芝麻 的 产量 比较 高 ， 第 2 类 


样本 的 特征 是 花生 的 产量 非常 高 ， 第 1 类 样本 的 特征 是 各 种 作物 的 产量 比较 低 。 
通过 聚 类 分 析 得 到 的 研究 结论 如 下 。 


日 ”江西 、 河 南 、 山 东 、 江 苏 、 四 川 、 湖 南 、 河 北 、 湖 北 、 安 徽 等 省 市 各 类 粮食 作物 的 产 
量 普遍 较 高 ， 吉 林 、 黑 龙 江 等 省 市 稻谷 、 玉 米 、 豆 类 的 产量 大 都 比较 高 ， 其 他 的 省 市 


综合 来 看 各 种 粮食 作物 的 产量 比较 低 。 


。 山东 、 陕 西 等 省 市 苹果 的 产量 非常 高 、 葡 萄 和 梨 的 产量 比较 高 ， 河 南 、 辽 宁 、 陕 西 、 
甘肃 、 河 北 等 省 市 各 种 作物 的 产量 比较 高 ， 其 他 的 省 市 各 种 水 果 产 品 的 产量 比较 低 。 
。 全 汶 。 四 川 、 湖 北 、 湖 南 、 WA 花生 和 芝麻 的 产量 比较 
高 ， 河 南 、 山 东 等 省 市 花生 的 产量 非常 高 ， 其 他 的 省 市 综合 来 看 各 种 油料 作物 的 产量 


比较 低 。 
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根据 以 上 所 做 的 分 析 ， 可 以 比较 有 把 握 地 得 出 以 下 结论 : 


简单 相关 分 析 表 明 : “农业 总 产值 ”的 9 个 来 源 中 , “粮食 产 量 ” 与 “油料 产量 ”、“ 棉 
花 产 量 ” 与 “甜菜 产量 "、“ 油 料 产 量 ”与 “ 麻 类 产量 ”等 变量 之 间 的 相关 性 在 1% 的 
显著 性 水 平 上 显著 。 

简单 相关 分 析 表 明 : 9 种 农产品 的 单位 面积 产量 等 变量 之 间 的 相关 性 都 比较 差 ， 都 在 
0.01 的 显著 性 水 平 上 不 显著 。 

简单 相关 分 析 表 明 : “稻谷 ”“ 小 麦 ”"“ 玉 米 ”“ 豆 类 ”“ 暮 类 ”5 种 粮食 作物 中 仅 有 “ 玉 
米 ” 与 “ 豆 类 ”之 间 的 相关 性 在 1% 的 显著 性 水 平 上 显著 。 

简单 相关 分 析 表 明 : “花生 ”“ 油 菜 籽 ”“ 芝 麻 ”3 种 油料 作物 中 ， 仅 有 “花生 ”与 “ 芝 
麻 ” 之 间 的 相关 性 在 1% 的 显著 性 水 平 上 显著 。 

简单 相关 分 析 表 明 :“ 革 果 ”“ 树 村 ”“ 梨 ”“ 葡 葡 ”“ 香 蕉 ”5 种 水 果 产 品 中 ， 仅 有 “ 梨 ” 
与 “葡萄 ”变量 之 间 的 相关 性 在 1% 的 显著 性 水 平 上 显著 。 

经 过 多 重 线性 回归 分 析 ， 可 以 发 现 我 国 农业 总 产值 水 平 与 “粮食 产量 ” “棉花 产 量 ” 

“甜菜 产量 "” “茶叶 产量 ”以 及 “水 果 产 量 ” 都 有 一 定 的 显著 关系 。 具 体 而 言 , “粮食 
产量 ” “棉花 产量 ” “茶叶 产 量 ” 以 及 “水 果 产量 ”有 拉动 效应 ， 尤 其 是 茶叶 产量 ， 每 
增加 一 个 单位 会 带 来 对 应 农业 总 产值 的 18 倍 多 的 增加 ; 甜菜 产量 对 农业 总 产值 水 平 
拖 后 效应 ， 在 一 定 程度 上 说 明 种 植 这 种 作物 是 不 经 济 的 。 

经 过 多 重 线性 回归 分 析 ， 可 以 发 现 我 国 农业 总 产值 水 平 与 “花生 单位 面积 产量 ”“ 油 
菜 籽 单位 面积 产量 ， “芝麻 单位 面积 产量 ”“ 黄 红 麻 单位 面积 产量 ”以 及 “受灾 面积 ( 千 
公顷 )” 都 有 一 定 的 显著 关系 。 具 体 而 言 ， 这 些 变 量 都 对 我 国 的 农业 总 产值 有 显著 拉 
动 效应 .“ 花 生 单 位 面积 产量 " “油菜 籽 单 位 面积 产量 "“ 芝 麻 单 位 面积 产量 "”“ 黄 红 麻 
单位 面积 产量 ” 对 我 国 的 农业 疙 广 值 有 显 着 拉动 歼 应 说 明 这 此 作物 都 有 经 济 的 ， 也 就 
是 量 的 提高 能 够 带 来 价值 的 提高 ,“ 受 灾 面积 ( 千 公顷 )” 对 我 国 的 农业 总 产值 有 显著 
拉动 效应 说 明 “ 谷 贱 伤 农 ” 的 道理 在 我 国 是 存在 的 ， 受 灾 面 积 的 扩大 会 带 来 产量 的 降 
低 ， 但 这 却 能 带 来 价格 的 提高 ， 而 且 价格 提高 的 幅度 要 更 大 ， 造 成 总 价值 也 会 提高 。 
因子 分 析 表明 : 可 以 对 “粮食 产量 ”“ 棉 花 产 量 ”“ 油 料 产量 "”“ 麻 类 产量 ”“ 甘 蔗 产 量 ”、 
“甜菜 产量 "” “烟叶 产量 "” “茶叶 产 量 ” “水 果 产 量 ”9 种 农产品 产量 变量 提取 4 个 公 
因子 。 
因子 分 析 表 明 : 可 以 对 “谷物 单位 面积 产量 ” “棉花 单 位 面积 产量 "“ 花 生 单位 面积 产 
量 ” “油菜 籽 单 位 面积 产量 "” “芝麻 单 位 面积 产量 ”“ 黄 红 麻 单位 面积 产量 "” “甘蔗 单位 
面积 产量 ” “烤烟 单位 面积 产量 ” “甜菜 单位 面积 产量 ”9 种 作物 单位 面积 产量 提取 3 
个 公 因 子 。 

聚 类 分 析 表 明 : 和 江西、 河南、 山东、 江苏、 四川、 湖南 、 河 北 、 湖 北 、 安 徽 等 省 市 各 
类 粮食 作物 的 产量 普遍 较 高 ， 吉 林 、 黑 龙 江 等 省 市 稻谷 、 玉 米 、 豆 类 的 产量 大 都 比较 
高 ， 其 他 的 省 市 综合 来 看 各 种 粮食 作物 的 产量 比较 低 。 

聚 类 分 析 表 明 : 山东 、 陕 西 等 省 市 苹果 的 产量 非常 高 ， 葡 萄 和 梨 的 产量 比较 高 , 河南 、 
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辽宁 、 陕 西 、 甘 肃 、 河 北 等 省 市 的 各 种 水 果 产 品 的 产量 比较 高 ， 其 他 的 省 市 各 种 水 果 
产品 的 产量 比较 低 。 

。 聚 类 分 析 表明 : 安徽 、 四 川 、 湖 北 、 湖 南 、 江 苏 等 省 市 油菜 籽 的 产量 非常 高 ， 花 生 和 
芝麻 的 产量 比较 高 ， 河 南 、 山 东 等 省 市 花生 的 产量 非常 高 ， 综 合 来 看 其 他 的 省 市 各 种 
油料 作物 的 产量 比较 低 。 

经 过 以 上 研究 ， 可 以 从 一 种 宏观 的 视野 上 对 我 国 的 农业 有 一 个 比较 全 面 的 了 解 ， 这 对 于 

以 后 我 国 农业 的 发 展 有 重要 的 借鉴 和 指导 意义 。 例 如 根据 回归 分 析 部 分 的 结论 “受灾 面积 ( 干 
公顷 ) ”对 我 国 的 农业 总 产值 有 显著 拉动 效应 ， 说 明 “ 谷 贱 伤 农 ” 的 道理 在 我 国 是 存在 的 ， 所 
以 继续 需要 付出 更 多 的 努力 来 保障 农业 劳动 者 的 利益 。 再 如 ， 聚 类 分 析 表 明 ， 山 东 、 陕 西 等 省 
市 苹果 的 产量 非常 高 , 葡萄 和 梨 的 产量 比较 高 , 水 果 销 售 商 可 以 据 此 制定 自己 的 采购 渠道 建设 
和 物流 运输 计划 。 


22.10 本章 习题 


使 用 《中 国 统计 年 鉴 2011》 上 的 中 国 各 省 市 2010 年 农产品 的 相关 数据 ， 包 括 “ 农 业 总 产 
值 ”“ 粮 食 产量 ” “棉花 产量 ”“ 油 料 产量 ”“ 麻 类 产量 ”“ 甘 莲 产 量 ” “甜菜 产量 "” “烟叶 
产量 ”“ 茶 叶 产量 ”“ 水 果 产量 ” “谷物 ”“ 稻 谷 ”“ 小 麦 ”“ 玉 米 ”“ 豆 类 ”“ 音 类 ”“ 花 
生 ”“ 油 菜 季 ” “芝麻 ”“ 黄 红 麻 ” “烤烟 ” “苹果 ”“ 相 档 ”“ 积 ” “葡萄 ”“ 香 东 ” “从 
物 单位 面积 产量 *” “棉花 单位 面积 产量 ”“ 花 生 单位 面积 产量 ”“ 油 菜 籽 单位 面积 产量 ” “区 
麻 单 位 面积 产量 ”“ 黄 红 麻 单位 面积 产量 ”“ 甘 蔗 单 位 面积 产量 ”“ 烤 烟 单位 面积 产量 ”“ 受 
灾 面 积 ( 千 公 顷 )》 ”“ 成 灾 面 积 〈 千 公顷 ) ”“ 甜 荣 单位 面积 产量 ”等 数据 已 整理 入 Stata 
中 ) ， 进 行 以 下 分 析 。 


(1) 相关 分 析 

e ”对 “农业 总 产值 ”的 9 个 来 源 一 “粮食 产量 ” “棉花 产 量 ” “油料 产量 ”“ 麻 类 产量 ” 
“ 甘 上 蔗 产量 ” “甜菜 产量 " “烟叶 产量 ” “茶叶 产量 ” “水 果 产 量 ”进行 简单 相关 分 析 。 

。 对 9 种 农产品 的 单位 面积 产量 一 - “谷物 单 位 面积 产量 "“ 棉 花 单 位 面积 产量 " “花生 
单位 面积 产量 "“ 油 菜 籽 单 位 面积 产量 "“ 芝 麻 单 位 面积 产量 "“ 黄 红 麻 单位 面积 产量 ”、 
“甘蔗 单位 面积 产量 ”“ 烤 烟 单位 面积 产量 "“ 甜 菜单 位 面积 产量 ” 进行 简单 相关 分 析 。 

e 对 “稻谷 ”“ 小 麦 ”“ 玉 米 ”“ 豆 类 ”“ 莫 类 ”5 种 粮食 作物 进行 简单 相关 分 析 。 

e 对 “花生 ”“ 油 菜 籽 > “芝麻 ”3 种 油料 作物 进行 简单 相关 分 析 。 

”对 “ 革 果 ”“ 柑 桔 ” “ 梨 ” “葡萄 ” “香蕉 ”5 种 水 果 产 品 进行 简单 相关 分 析 。 

(2) 回归 分 析 

e 以 “农业 总 产值 ”为 因 变 量 ， 以 农业 为 自 变 量 ， 进 行 最 小 二 乘 线性 回归 。 

e ”以 “农业 总 产值 ”为 因 变 量 ， 以 “谷物 单位 面积 产量 ” “棉花 单位 面积 产量 ” “花生 单 
位 面积 产量 "” “油菜 籽 单 位 面积 产量 " “芝麻 单位 面积 产量 "”“ 黄 红 麻 单 位 面积 产量 ” 
0 “烤烟 单位 面积 产量 ” “甜菜 单位 面积 产量 ” “受灾 面积 ( 千 公 

、“ 成 灾 面 积 ( 千 公顷 六 为 自 变量 ， 进 行 最 小 二 乘 线性 回归 。 
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(3) 因 于 分 析 

。 对 “粮食 产量 "。“ 杭 花 产量 "“ 油 料 产量 ”“ 麻 类 产量 "”“ 甘 萨 产量"“ 钳 某 产 量 "”“ 烟 叶 
产量 "“ 茶 叶 产 量 ”“ 水 果 产 量 ”9 种 农产品 产量 变量 提取 公 因 于 。 

。 ”对 “谷物 单位 面积 产量 "” “棉花 单 位 面积 产量 "” “花生 单位 面积 产量 "” “油菜 籽 单 位 面 
积 产量 ”“ 芝 麻 单 位 面积 产量 "”“ 黄 红 麻 单位 面积 产量 ”“ 甘 芒 单 位 面积 产量 ”“ 烧 烟 单 
位 面积 产量 " “甜菜 单位 面积 产量 ”9 种 作物 单位 面积 产量 提取 公 因子 。 


(4) 聚 类 分 析 

。 对 粮食 产品 的 组 成 部 分 ( 包括 “稻谷 ”“ 小 麦 ”“ 玉 米 ”“ 豆 类 ”“ 甘 类 ”) 变量 进行 聚 
类 。 

”对 水 果 产 品 的 组 成 部 分 (包括 “ 革 果 ”“ 柑 桔 ” “ 梨 ” “葡萄 ” “香蕉 ” ) 变量 进行 聚 类 。 

。 对 油料 作物 的 组 成 部 分 ( 包括 “花生 ”“ 油 菜 籽 ”“ 芝 麻 ”) 变量 进行 聚 类 。 
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第 23 章 ”Stata 在 保险 业 中 的 应 用 


保险 是 指 投保 人 根据 保险 合同 的 约定 ， 向 保险 人 支付 保险 费 ， 保 险 人 对 于 合同 约定 的 可 
能 发 生 的 事故 因 其 发 生 所 造成 的 财产 损失 承担 赔偿 责任 , 或 者 当 被 保险 人 死亡 、 伤 残 、 疾 病 或 
者 达到 合同 约定 的 年 龄 、 期 限时 承担 给 付 保险 金 责任 的 商业 保险 行为 。 保险 最 基本 的 功能 是 经 
济 补偿 ， 有 利于 受灾 企业 及 时 恢复 生产 ， 有 利于 企业 加 强 危 险 管理 ， 有 利于 安定 人 民生 活 。 保 
险 业 作为 国民 经 济 一 个 不 可 或 缺 的 组 成 部 分 , 在 我 们 建设 与 完善 有 中 国 特 色 的 社会 主义 市 场 经 
济 中 发 挥 着 越 来 越 重 要 的 作用 。Stata 作为 一 种 功能 强大 的 统计 分 析 软 件 ， 完 全 可 以 用 来 进行 
保险 业 的 相关 分 析 研 究 ， 定 量 分 析 变 量 之 间 的 联系 与 区 别 。 下 面 我 们 就 来 介绍 一 下 Stata 在 保 
险 业 中 的 应 用 。 


23.1 研究 背景 及 目的 


背景 一 : 进入 21 世纪 以 来 ， 中 国保 险 业 持续 快速 发 展 ， 保 险 机 构 个 数 和 保险 业 从 业 人 数 
不 断 增加 。 
根据 《中 华人 民 共 和 国 年 鉴 2008》 提 供 的 数据 〈 见 表 23.1) ， 可 以 发 现 ， 无 论 是 保险 机 
构 个 数 还 是 保险 业 从 业 人 数 都 呈现 出 持续 快速 增长 趋势 。 
表 23.1 中 国 历年 保险 业 机 构 数 和 从 业 人 数 统计 2000 一 2007 年 ) 
年 份 2000 年 ”2001 年 ” 2002 年 。 2003 年 。 2004 年 2005 年 。 2006 年 2007 年 


de 3 | ;3 | 4 | ©@ | 6 | % | 17 | lo | 


职工 人 数 /人 
背景 二 : 伴随 着 保险 机 构 和 从 业 人 员 的 不 断 增加 ， 保 险 业 的 保费 收入 也 持续 增长 ， 使 得 


我 国保 险 业 呈 现 出 良好 发 展 的 态势 。 
根据 《中 华人 民 共 和 国 年 鉴 2008》 提 供 的 数据 〈 见 表 23.2) ， 可 以 发 现 ， 不 管 是 财产 保险 
公司 还 是 人 寿 保险 公司 的 保费 收入 都 不 断 增长 。 


表 23.2 中国 历年 保险 业 保费 收入 情况 统计 〈2000 一 2007 年 ) 


年 份 | 2000 年 | 2001 年 | 2002 年 | 2003 年 | 2004 年 | 2005 年 | 2006 年 | 2007 年 
保费 总 收入 / 亿 元 “| 1598 2109 3054 3880 4318 4932 | 5643 | 7036 
财产 保险 公司 保 

a 608 685 780 869 1125 1283 1579 2086 
费 收入 / 亿 元 
人 寿 保 险 公司 保 

2 990 1424 | 2274 | 3011 3194 3649 4061 4949 
费 收入 / 亿 元 


在 这 种 大 背景 下 对 我 国 目前 的 保险 业 进行 研究 ， 不 论 是 对 于 促进 我 国保 险 业 更 加 又 好 又 
快 地 发 展 , 还 是 对 于 充分 发 挥 保险 业 对 于 发 展 国民 经 济 和 改善 居民 生活 的 作用 , 都 有 着 极为 重 
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要 的 意义 。 

本 章 的 研究 目的 如 下 : 通过 对 我 国 的 各 个 财产 保险 公司 的 基本 情况 进行 各 种 分 析 ， 一 方 
面 找 出 构成 财 险 公司 基本 特征 的 各 变量 之 间 的 内 在 联系 , 另 一 方面 找 出 各 财 险 公 司 的 共同 特征 
或 相 异 之 处 。 


23.2 ”研究 方法 


按照 我 国 目前 保险 业 的 惯例 ， 对 于 财产 保险 公司 ， 可 以 用 五 个 变量 来 描述 其 保险 业务 情 
况 : 保费 收入 、 储 金 、 赔 案件 数 、 赔 款 支 出 、 未 决 赔款 。 其 中 ， 保 费 收 入 又 按 保 险 标 的 特点 分 
为 企业 财产 保险 保费 收入 、 机 动车 辆 保险 保费 收入 、 货 物 运输 保险 保费 收入 、 责 任 保险 保费 收 
入 、 信 用 保证 保险 保费 收入 、 农 业 保 险 保费 收入 、 短 期 健康 保险 保费 收入 、 意 外 伤害 保险 保费 
收入 、 其 他 保险 保费 收入 9 个 组 成 部 分 ， 赔 款 支 出 按 保 险 标 的 特点 分 为 企业 财产 保险 赔款 支 
出 、 机 动车 辆 保险 赔款 支出 、 货 物 运 输 保险 赔款 支出 、 责 任 保险 赔款 支出 、 信 用 保证 保险 赔款 
支出 、 农 业 保险 赔款 支出 、 短 期 健康 保险 赔款 支出 、 意 外 伤害 保险 赔款 支出 、 其 他 保险 赔款 支 
出 9 个 组 成 部 分 。 所 以 我 们 在 进行 分 析 研究 的 时 候 , 考虑 的 关于 保险 业务 的 变量 也 与 这 些 叙述 
相 吻 合 。 

本 例 采用 的 数据 有 《中 国 2007 年 各 财产 保险 公司 业务 统计 》《 中 国 2007 年 各 保险 公司 
人 员 结 构 情况 统计 》 等 ， 这 些 数 据 都 摘编 自 《 中 国保 险 年 鉴 2008》。 

采用 的 数据 分 析 方法 主要 有 描述 性 分 析 、 相 关 分 析 、 回 归 分 析 、 因 子 分 析 、 聚 类 分 析 等 。 

基本 思路 是 ， 首先 使 用 描述 性 分 析 来 描述 各 个 变量 之 间 的 基本 特征 ， 为 后 面 的 分 析 做 好 
基础 ， 然 后 使 用 相关 分 析 、 回 归 分 析 等 研究 保费 收入 、 储 金 、 赔 案件 数 、 周 款 支出 、 未 决 赔款 、 
公司 总 人 数 、 人 员 构 成 等 变量 之 间 的 关系 ; 接着 使 用 因子 分 析 对 构成 保费 收入 和 赔款 支出 的 各 
个 变量 提取 公 因 子 ; 最 后 使 用 聚 类 分 析 依照 人 员 构 成 特点 和 保费 收入 、 赔 款 支出 等 变量 对 各 财 
产 保险 公司 进行 聚 类 。 


23.3 ”数据 整理 


因为 本 例 采 用 的 是 现成 的 数据 ， 所 以 根据 第 1 章 介绍 的 方法 直接 将 所 用 数据 录入 Stata 中 
即 可 。 我 们 设置 了 38 个 变量 ， 分 别 是 “保险 机 构 ”“ 保 费 收 入 合计 ”“ 企 业 财产 保险 保费 收 
入 ”“ 机 动车 辆 保险 保费 收入 ”“ 货 物 运输 保险 保费 收入 ”“ 责 任 保险 保费 收入 ”“ 信 用 保证 
保险 保费 收入 ”“ 农 业 保 险 保费 收入 ”“ 短 期 健康 保险 保费 收入 ”“ 意 外 伤害 保险 保费 收入 ” 
“其 他 保险 保费 收入 ”“ 储 金 ”“ 赔 案件 数 ”“ 赔 款 支出 合计 ”“ 企 业 财产 保险 赔款 支出 ”“ 机 
动车 辆 保险 赔款 支出 ”“ 货 物 运输 保险 赔款 支出 ” “责任 保险 赔款 支出 ” “信用 保证 保险 赔款 
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支出 ”“ 农 业 保险 赔款 支出 ”“ 短 期 健康 保险 赔款 支出 ”“ 意 外 伤害 保险 赔款 支出 ”“ 其 他 保 
险 赔款 支出 ”“ 未 决 赔款 ”“ 总 人 数 ”“ 男 ”“ 女 ”“ 博 士 ” “硕士 ” “学士 >“ 大专 "“ 中 
专 以 f”“ 高 级 ”“ 中 级 ”“ 初 级 ”“ 三 十 五 岁 以 下 ”“ 三 十 六 岁 到 四 十 五 岁 ”“ 四 十 六 岁 以 
上 ”等 。 其 中 ， “保险 机 构 ” 为 字符 串 变量 ， 其 余 变 量 均 为 数值 型 变量 。 我 们 把 这 38 个 变量 
分 别 定义 为 V1-V38。 样 本 是 中 国 2007 年 各 财产 保险 公司 业务 统计 和 人 员 构 成 的 相关 数据 。 
录入 完成 后 数据 如 图 23.1 所 示 。 


画 Data Editor (Edit) - [案例 23] 
Eile Edit View Dats Tools 
ET rE 
人 保 财 险 
加 加 加 加 ve 
S8428.82 B867.3 G2091.02 2978.79 。 3611.04 243.25 
769.19 71.81 639.66 8.93 28.7 17 回 Verisble Label 
Ho028.4 7632 766s24 DL 2 2 
S403 os 3280 ao 98 
Bass i786 2686.61 15.99 79.6 -la 
3240.77 o o 6 0 3240.77 
5 1314 338.96 I177 4 7 
e342.07 e7032 14752.22 149.45 307.59 .09 
3134331.04 2736.61 16474.97 895.06 sie.2s 
21449.53 2346.25 1S165.45 64l81 61576 
2563.63 237.88 1245.99 196.24 136.67 
T3714 350.03 e556.86 895.37 8.04 
286015 157.99 944.64 44.83 22.39 
ao S09 6l9.97 1049 il.ss 
5331.49 23832 476602 36.67 ll3.34 
S061 8.94 38.29 76 37.74 
6 .5 2.4 
S722 ee S360.42 46.65 48.07 
1408.47 ll.98 457.84 2.65 
o ose.26 o 
S637 53 e001 3 本 
7 .es 


otes 
2675.47 2331.39 i 31.17 EE 


29.68 CE 26.43 有 .37 


463,82 240.25 16.36 
98.01 60.48 " .5 
524.08 261.45 21.44 
4 ,41 04 
833.21 2.28 E 342.32 


间 
» 
Vars: 39 Order: Dataset Obs: 42 Filter: Of Node: Edit In 


图 23.1 数据 23 
先 做 一 下 数据 保存 ， 然 后 展开 后 续 分 析 。 


23.4 ”描述 性 分 析 


本 案例 的 数据 变量 除了 城市 这 一 字符 串 变 量 外 都 是 定 距 变量 ， 通 过 进行 定 距 变量 的 基本 
描述 性 统计 ， 我 们 可 以 得 到 数据 的 概要 统计 指标 ,包括 平均 值 、 最 大 值 、 最 小 值 、 标 准 差 、 百 
分 位 数 、 中 位 数 、 偏 度 系数 和 峰 度 系数 等 。 我 们 通过 获得 这 些 指标 , 可 以 从 整体 上 对 拟 分析 的 
数据 进行 宏观 把 握 ， 为 后 续 进 行 更 精深 的 数据 分 析 做 好 必要 准备 。 
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23.4.1 Stata 分 析 过 程 


描述 性 分 析 的 步骤 如 下 : 


进入 Stata 14.0， 打 开 相 关 数据 文件 ， 弹 出 “ 主 界 面 ”对 话 框 。 
加 在 “ 主 界面 ”对 话 框 的 “Command” 文 本 框 中 输入 命令 : 
summarize V2-V38,detail 


国 设置 完毕 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


23.4.2 ”结果 分 析 


在 Stata 14.0“ 主 界面 ”的 结果 窗口 中 ， 我 们 可 以 看 到 如 图 23.2~ 图 23.20 所 示 的 分 析 结 果 


\\\N 


va 

Teronsiien Snap Percenriles Smallest 

2 o o 

Ss o o 
ov ao a2 2 本 总 
让 Wg os We be -41 o Sum of Wgt. 42 
sos as Han 5320.97 i 
ES es SE Largest Std. De 10143.15 

as 人 
ss 23433.04 Shoumes 97387 te 

Yn vs 

1 0 9 中 
0% ao9 2 az i 人 了 
ss 20.79 Bi 人 2 or 起 
os es 二 se2.7786 SR i 
ee rm ee Largest atd, Dev. 77.5743 

sy 09 He i 
os ezo'a 2aa6.25 Variance 2076348 ee Ce 
ss ae 796'6L een 0446 a eee es es ns 
es aa67.3 867.3 Fartoais 20/16604 3 rt 

图 by pr 图 
23.2 ”V2-V3 描述 性 分 析 结 果 图 图 23.3 V4-V5 描述 性 分 析 结 果 图 

ve 加 
‘9 sz bo: a os 2 
24.19 170.1857 | os 6 了 123.946 

79.6 98 ss .51 320.98 
518.25 615 76 ss99417 | ss sey 46.33 Snes 4.515661 

本 

Beenie edad 
号 a "ee 2 


图 23.4 V6-V7 描述 性 分 析 结 果 图 23.5 ”V8-V9 描述 性 分 析 结果 图 
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WA 


Percentiles 
ao 
5 n n 
os n a ops a2 和 aa 
ss 2.2 o Sum of Woe. 42 i 42 
sos 15.28 an 161.049 名 eh 623.7552 
Largeat sea。 Dev. 362.7527 Largest sca。 Dev, 2002.942 
[ss 124.53 579.07 局 1623.1 
po* 517.24 712.12 Ee 1069.01 6146.30 Yariance 4330233 
pss 712.12 1085.8 A 6146.35 ‘6510.06 Skewness 3.624817 
pe* 1964.35 1964.35 pn 10492.56 10492.56 Kurtosis 15.a3898 
vi V13 
Percentiles malleac Percenciles 
| -11.55 -11.55 
5 o -10.03 
os o o oba a2 au aa2 
ss 2.6 o Sum of Wac. 2 Sum of Vge, 42 
lsos 20.959 ean 265.0255 Hean 66.97833 
Largest Sea, Dev. 21 .4281 die Bey, 103.0507 
ss 109.51 680.22 Ly 322.62 
bos 540.21 1450.01 Variance 574744.1 ep Ta 33510.40 
ss 1450.01 1741.83 Skewness 4.734397 5390.05 ee 3.649297 
Bs* 935.67 4935.67 Rurcoals 26.47074 


23.6 V10-V11 描述 性 分 析 结 果 V12-V13 描述 性 分 析 结 果 图 
0 o 
Lo aa 2 。 os 2 
3.57 - Sum of TO 2 1 o Sum or Wgt. 42 
Largeat Std. Dev. 349.8205 Largeor Srd. Dev. 193.6965 
图 23.8 V14-V15 描述 性 分 析 结 果 图 图 23.9 V16-V17 描述 性 分 析 结 果 图 
pos 。 oo 2 9 ooa 
os o o bs 4 人 
sos o Nean 40 .646: Wann 夺 4 开拓 和 拓 
ss 2.66 46.33 a 
os 21.03 31.86 Variance 27277. at pi 于 
5 3 -86 580.69 Skeuness .2901 ni ew borane] 
3 36.35 36.35 Eurtosis 19.7993: Ta Ee Ss 


V18-V19 描述 性 分 析 结果 图 图 23.11 V20-V21 描述 性 分 析 结果 
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9 657.62 657.62 Kurtosis 13.34646 9 22519.96 22519.96 Kurtosis 28.27052 
V23 Vas 
1 o o 1% 30 30 
5% o o 5 9 35 
OD* o o id 42 DOs 62 49 Oba 42 
5% o Sum of Vgt. #2 5 126 50 Sum of Wgt. 42 
oO% 6.18 Nean 111.5288 sO% 1063 Nean 7497.167 
Largest Sta, Dev. 826.5577 Largesc Std, Dev. 15377.93 
5 22.1 294.79 pss 6955 29990 
OS 230,51 02 Variance 100342.7 Oo% 18806 33599 Variance 2.360108 
a Sait i ste 5 33399 S0102 Seuness 2.870776 
图 23.12 V22-V23 描述 性 分 析 结果 图 图 23.13 V24-V25 描述 性 分 析 结 果 图 
图 23.14 V26-V27 描述 性 分 析 结 果 图 图 23.15 V28-V29 描述 性 分 析 结 果 图 
< vr 
i Eee naiieat 
1% 21 21 9 0 
5 28 26 1 发 
10% 36 28 Obs 42 和 和 ean 
25% 31 34 Sum of Wgt. 42 汪 于 Sm oF Wotes 到 
Ei 409 Hean 2513.5 | 和 I 
Largest Std. Dev. 5850.047 pd des Re 
aos 6356 7921 Variance 3.42c+07 Varianoe 二, 
lass 7821 21979 Skeuness 3.683347 op 2.348265 
ss 30738 30738 Kurtosis 16.65388 Norconts A 
Percentiles Smallest Teromw tla 
1 o o 
5 5 a bt 
0% 8 5 ons 2 pe he pe 
25s 23 8 Sum of Wgt. 42 要 Poe pt 
ss aa9 Nean 3002.976 ua Ween 104.7619 
ss 2797 12346 pd a 
jos 8048 13195 Varience 3.480+07 ested SS tbe 
ss 13195 23989 Skewness 2.653177 beast Di: bp het 
ass 25426 25426 Kurtosis 9.683805 ocd sl sd ine 


23.16 V30-V31 描述 性 分 析 结 果 图 图 23.17 V32-V33 描述 性 分 析 结果 
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WA \\\\N\ 

Va4 Yas 

Percentiles Smalleat Perrentiles Smallest 

本 家 1 23 23 

克 和 ss 34 25 
量 证 i a 10% a9 aa ops a2 
Wet 加 而 Se ea 25% 92 37 Sum of Vg. 42 
ji 三 生 i a sos n16 Nean 4504.643 
att sca。 Dev. 2617.983 Largest Stq. Dev. 9600.217 

75% 562 2136 75s 4024 17295 
9g0% 1446 2972 Ngan 6853833 sos 13206 19189 Variance 9.22e+07 
95% 2972 4908 wa 5.159856 ss 19189 19757 Skewness 3.707457 
99s 16296 16296 Furtosis 30.45409 99% 54491 54491 Kurtosis 18.79216 

vas V37 

percentiles Smallear Percentiles Smallest 

二 o o 1 a a 

5 o o ss 10 a 
10% o o obs a2 10% 1 10 oba 2 
25% o o aum of Wat. 2 25% 16 11 Sn of Wg. 42 
50s 37 Hean 1303.881 sos 254 Nean 2181.976 
Largeat Std. Dev. 3985.832 Largeac Std. Dev. 4819.379 

75% 570 2791 75% 1907 8742 
90% 1276 7643 Variance 1.59e+07 90% 5544 10576 Variance 2.32e+07 
95% 7643 15733 Skevness 3.81126 95s 10576 14209 Skewness 3.357023 
99% 20039 20039 Kurtosis 16.6555 99% 25559 25559 Kurtosis 15.15075 


23.18 ”V34-V35 描述 性 分 析 结果 图 


V38 


Percentiles Smallest 
o 0 


1 0 
1 3 
5 3 


53 
Largest 
1491 

2149 Variance 

3834 Skevness 

17248 Kurtosis 


图 23.20 V38 描述 性 分 析 结 果 图 


在 图 23.2~ 图 23.20 所 示 的 分 析 结果 中 ， 我 们 可 以 得 到 很 多 信息 。 此 处 限于 篇 幅 不 再 针对 


各 个 变量 一 一 展开 说 明 ， 以 变量 V38 为 例 进 行 解释 。 信 息 包括 : 
(1) 百 分 位 数 (Percentiles ) 


可 以 看 出 变量 V38 的 第 一 个 四 分 位 数 (25%) 是 S， 第 二 个 四 分 位 数 (50%) 是 53。 


(2) 四 个 最 小 值 CSmallest) 
变量 V38 最 小 的 四 个 数据 值 分 别 是 0、0、1、1。 


(3) 四 个 最 大 值 (Largest) 


变量 V38 最 大 的 四 个 数据 值 分 别 是 1491、2149、3834、17248。 


(4) 平均 值 (Mean) 和 标准 差 (Variance) 
变量 V38 的 平均 值 为 808.4524， 标 准 差 是 2702.977。 


(5) 偏 度 (Skewness) 和 峰 度 (Kurtosis) 
变量 V38 的 偏 度 为 5.575903， 为 正 偏 度 。 


变量 V38 的 峰 度 为 34.23351， 有 一 个 比 正 态 分 布 更 长 的 尾巴 。 
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据 间 的 量 纲 差距 也 在 可 接受 范围 之 内 ， 可 以 进入 下 一 步 的 分 析 过 程 。 


23.5 ”相关 分 析 

对 于 相关 分 析 ， 我 们 准备 进行 以 下 几 个 部 分 。 

第 一 ， 对 “保费 收入 合计 ”的 9 个 组 成 部 分 一 一 “企业 财产 保险 保费 收入 ”“ 机 动车 辆 
保险 保费 收入 ”“ 货 物 运输 保险 保费 收入 ”“ 责 任 保险 保费 收入 ”“ 信 用 保证 保险 保费 收入 ” 
“农业 保险 保费 收入 ”“ 短 期 健康 保险 保费 收入 ”“ 意 外 伤害 保险 保费 收入 ”“ 其 他 保险 保费 
收入 ”进行 简单 相关 分 析 。 

第 二 ， 对 “赔款 支出 合计 ”的 9 个 组 成 部 分 一 一 “企业 财产 保险 赔款 支出 ”“ 机 动车 辆 
保险 赔款 支出 ”“ 货 物 运 输 保险 赔款 支出 ”“ 责 任 保险 赔款 支出 ”“ 信 用 保证 保险 赔款 支出 ” 
“农业 保险 赔款 支出 ”“ 短 期 健康 保险 赔款 支出 ”“ 意 外 伤害 保险 赔款 支出 ”“ 其 他 保险 赔款 
支出 ”进行 简单 相关 分 析 。 

第 三 ， 对 “保费 收入 合计 ”“ 赔 款 支出 合计 ”“ 总 人 数 ” 这 3 个 变量 进行 简单 相关 分 析 。 

第 四 ， 对 “ 赔 案 件数 ”“ 赔 款 支出 合计 ”“ 未 决 赔款 ”这 3 个 变量 进行 简单 相关 分 析 。 

1. 对 “保费 收入 合计 ”的 9 个 组 成 部 分 进行 简单 相关 分 析 

操作 步骤 如 下 : 

加 进入 Stata 14.0， 打 开 相 关 数 据 文 件 ， 弹 出 “ 主 界面 ”对 话 框 。 

加 在 “ 主 界面 ”对 话 框 的 “Command” 文 本 框 中 输入 命令 : 

(1) correlate V3-V11 

本 命令 旨 在 使 用 简单 相关 分 析 方 法 研究 V3~V11 这 9 个 变量 之 间 的 相关 关系 。 

(2 ) pweorr V3-V11,sidak sig star(0.01) 

本 命令 旨 在 判断 V3~V11 这 9 个 变量 之 间 的 相关 性 在 置信 水 平 为 99% 时 是 否 显著 。 

加 设置 完毕 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


结果 分 析 如 图 23.21、 图 23.22 所 示 。 从 图 23.21 可 以 看 出 ， 构 成 “保费 收入 合计 ”的 9 
个 组 成 部 分 除 “ 信 用 保证 保险 保费 收入 ”(V7) 与 别 的 变量 相关 关系 较 弱 外 ， 其 他 变量 之 间 都 具 


4 
有 很 强 的 相关 性 。 
.oorxeaate va-oaa 
ta2 
ws 
加 
va 
ve 
| 1.000 
va | os105 O8111 nasal 0.0206 1.0000 
va | wese3 939366 0.0854 99157 0.0200 0.0550 4.0000 
io | oss33 0-9245 0-8946 0.0145 0.7468 9-8704 1.0000 


vil 0.9914 0.9667 0.9868 0.9632 0.0148 0.7890 0.8924 0.9447 1.0000 


图 23.21 相关 分 析 结 果 图 1 


| 
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-pmwcorr V3-Vil,sidak sig star(0.01) 


v3 va v5 ve 7 ve 9 
va 1.0000 
Ya 0.9775* 1.0000 
0.0000 
vs 0.9927* 0.9667* 1.0000 


ve 0.9774* 0.9655* 0.9803* 1.0000 
0.0000 0.0000 0.0000 


wm 0.0170 0.0114 0.0160 0.0267 1.0000 
1.0000 1.0000 1.0000 1.0000 


ve 0.8105* 0.8580* 0.6111l* 0.8541* 0.0206 1.0000 
0.0000 0.0000 0.0000 0.0000 1.0000 


ve 0.8983* 0.9366* 0.8854* 0.9157* 0.0280 0.8558+ 1.0000 
0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 


vio 0.94334 0.9593+ 0.9245# 0.8946* -0.0148 0.7468+ 0.8704* 
0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 


Vil 0.9914* 0.9667* 0.9868* 0.9632w 0.0148 0.7890+* 0.8924* 
‘0.0000 0.0000 0.0000 0.0000 1.0000 0.0000 0.0000 


vio Vil 

Vi0 1.0000 

Vil 0.94474 1.0000 
0.0000 


23.22 ”相关 分 析 结果 图 2 
从 图 23.22 中 可 以 看 出 ， 绝 大 多 数 变量 之 间 相 关 性 在 1% 的 显著 性 水 平 上 显著 。 
2. 对 “赔款 支出 合计 ”的 9 个 组 成 部 分 进行 简单 相关 分 析 
操作 步骤 如 下 : 


进入 Stata 14.0， 打 开 相 关 数 据 文件 ， 弹 出 “ 主 界面 ”对 话 框 。 
在 “ 主 界面 ”对 话 框 的 “Command” 文 本 框 中 输入 命令 : 


(1) correlate V15-V23 
本 命令 旨 在 使 用 简单 相关 分 析 方 法 研究 V15~V23 这 9 个 变量 之 间 的 相关 关系 。 


(2 ) pwcorrV15-V23,sidak sig star(0.01) 
本 命令 旨 在 判断 V15-V23 这 9 个 变量 之 间 的 相关 性 在 置信 水 平 为 99% 时 是 否 显著 。 


加 设置 完毕 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


结果 分 析 如 图 23.23~ 图 23.24 所 示 。 从 图 23.23 可 以 看 出 ， 构 成 “赔款 支出 合计 ”的 9 个 
组 成 部 分 变量 之 间 都 具有 比较 强 的 相关 性 。 
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.correlate V15-V23 


(obs=42) 
V15 V16 V17 V18 V19 V20 V21 V22 V23 
V15 1.0000 
V16 0.9685 1.0000 
V17 0.9881 0.9457 1.0000 
V16 0.9697 0.9412 0.9708 1.0000 
V19 0.5835 0.5476 0.5802 0.5820 1.0000 
v2o 0.5280 0.5975 0.5122 0.5418 0.3070 1.0000 
V21 0.9401 0.9596 0.9067 0.9301 0.5584 0.5994 1.0000 
V22 0.8744 0.9253 0.8575 0.8161 0.4366 0.5230 0.8058 1.0000 
V23 0.9771 0.9495 0.9842 0.9920 0.5872 0.5561 0.9177 0.8462 1.0000 


23.23 ”相关 分 析 结果 图 3 


， pwcorr V15-V23,sidak sig star(0.01) 


Vis vi V17 vie V9 veo Vel 
v5 | 1.0000 
V16 | 0.9685+ 1.0000 
0.0000 
V17 | 0.9881: 0.9457* 1.0000 


vie | 0.9697+ 0.9412* 0.9708* 1.0000 
0.0000 0.0000 0.0000 


Vi9 | 0.5835: 0.5476* 0.5802+ 0.5820+ 1.0000 
oo018 0.n063 0-0020 0.on19 


Va0 | 0.5280 0.5975+ 0.5122 0.5418* 0.3070 1.0000 
0.0117 0.0011 0.0187 0.0076 0.8298 


val 0.9401+ 0.9596* 0.9067* 0.9301* 0.5584* 0.5994+ 1.0000 
0.0000 0.0000 0.0000 0.0000 0.0044 0.0010 


V22 0.8744+ 0.9253* 0.8575# 0.8161* 0.4366 0.5230 0.8058* 
0.0000 0.0000 0.0000 0.0000 0.1295 0.0136 0.0000 


V23 0.9771* 0.9495# 0.9842# 0.9920* 0.5872* 0.5551* 0.9177* 
0.0000 0.0000 0.0000 0.0000 0.0016 0.0047 0.0000 


V22 V23 

V22 1.0000 

V23 0.8462+ 1.0000 
0.0000 


图 23.24 ”相关 分 析 结果 图 4 
从 图 23.24 中 可 以 看 出 ， 大 部 分 变量 的 相关 性 很 强 ， 在 0.01 的 显著 性 水 平 上 显著 。 
3. 对 “保费 收入 合计 ”“ 赔 款 支出 合计 ”“ 总 人 数 ” 这 3 个 变量 进行 简单 相关 分 析 
操作 步骤 如 下 : 
进入 Stata 14.0， 打 开 相关 数据 文件 ， 弹 出 “ 主 界面 ”对 话 框 。 
[加 在 “ 主 界面 ”对 话 框 的 “Command” 文 本 框 中 输入 命令 : 


1 ps correlate V2 V14 V25 
旨 在 使 用 简单 相关 分 析 方 法 研究 V2、V14、V25 这 3 个 变量 之 间 的 相关 关系 。 


(2 ) pwcorr V2 V14 V25,sidak sig star(0.01) 
令 旨 在 判断 V2、V14、V25 这 3 个 变量 之 间 的 相关 性 在 置信 水 平 为 99% 时 是 否 显著 。 
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结果 分 析 如 图 23.25、 图 23.26 所 示 。 从 图 23.25 可 以 看 出 ，“ 保 费 收入 合计 ”“ 赔 款 支 
出 合计 ”“ 总 人 数 ” 这 三 个 变量 之 间 具 有 很 强 的 相关 性 。 


+ pwcorr V2 Vi4 V25,sidak sig star(0.01) 


| V2 V14 V25 
| ho | sz 4.0000 
图 23.25 相关 分 析 结 果 图 5 图 23.26 ”相关 分 析 结 果 图 6 
从 图 23.26 中 可 以 看 出 ，“ 保 费 收 入 合计 ”“ 赔 款 支出 合计 ”“ 总 人 数 ” 这 3 个 变量 之 间 
的 相关 性 在 1% 的 显著 性 水 平 上 显著 。 
4. 对 “ 赔 案 件数 ”“ 赔 款 支 出 合计 ”“ 未 决 赔款 ”这 3 个 变量 进行 简单 相关 分 析 


操作 步骤 如 下 : 


加 进入 Stata 14.0， 打 开 相 关 数据 文件 ， 弹 出 “ 主 界面 ”对 话 框 。 
加 在 “ 主 界面 ”对 话 框 的 “Command” 文 本 框 中 输入 命令 : 


(1) correlate V13V14V24 
本 命令 旨 在 使 用 简单 相关 分 析 方 法 研究 V13、V14、V24 这 3 个 变量 之 间 的 相关 关系 。 


(2) pwcorrV13 V14 V24,sidak sig star(0.01) 
本 命令 旨 在 判断 V13、V14、V24 这 3 个 变量 之 间 的 相关 性 在 置信 水 平 为 99% 时 是 否 显著 。 
设置 完毕 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


结果 分 析 如 图 23.27、 图 23.28 所 示 。 从 图 23.27 可 以 看 出 ，“ 赔 案件 数 ”“ 赔 款 支出 合 
计 ”“ 未 决 赔款 ”这 3 个 变量 之 间 具 有 很 强 的 相关 性 。 


+ pwoorr V13 V14 V24,sidak sig star(0.01) 


| V13 V14 V24 
va | 1.0000 
V14 0.9513* 1.0000 
0.0000 
aa | 1.0000 vza | 0.94354 0.99304 1.0000 
Vi4 0.9513 1.0000 0.0000 0.0000 
| vaa | 0.9435 0.9930 1.0000 
图 23.27 相关 分 析 结 果 图 7 图 23.28 ”相关 分 析 结 果 图 8 


从 图 23.28 中 可 以 看 出 ，“ 赔 案件 数 ”“ 赔 款 支 出 合计 ”“ 示 决 赔款 ”这 3 个 变量 之 间 的 
相关 性 在 1% 的 显著 性 水 平 上 显著 。 
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23.6 回归 分 析 


对 于 回归 分 析 ， 我 们 准备 进行 以 下 几 个 部 分 。 

第 一 ， 以 “保费 收入 合计 ”为 因 变量 ， 以 “ 男 ”“ 女 “博士 ” “硕士 ” “学士 ”“ 大 
专 "“ 中 专 以 下 ” “高 级 ”“ 中 级 ”“ 初 级 ”“ 三 十 五 岁 以 下 ” “三 十 六 岁 到 四 十 五 岁 ”“ 四 
十 六 岁 以 上 ”为 自 变量 ， 进 行 最 小 二 乘 线性 回归 。 

第 二 ， 以 “赔款 支出 合计 ”为 因 变 量 ， 以 “ 男 ”“ 女 ”“ 博 士 ”“ 硕 士 ” “学士 ”“ 大 
专 "“ 中 专 以 下 ” “高 级 ”“ 中 级 ”“ 初 级 ”“ 三 十 五 岁 以 下 ” “三 十 六 岁 到 四 十 五 岁 ”“ 四 
十 六 岁 以 上 ”为 自 变量 ， 进 行 最 小 二 乘 线性 回归 。 

1. 以 “保费 收入 合计 ”为 因 变量 ， 以 “ 男 ”“ 女 ”“ 博 士 ” “硕士” “学 士 ” “大专 " 
“中 专 以 下 ”“ 高 级 ”“ 中 级 ”“ 初 级 ”“ 三 十 五 岁 以 下 ”“ 三 十 六 岁 到 四 十 五 岁 ”“ 四 十 六 
岁 以 上 ”为 自 变 量 ， 进 行 最 小 二 乘 回归 

建立 线性 模型 : 


V2=a*V26+b*V27+c*V28+d*V29te*V30+f*V31+g*V32+h*V33+i*V34+j*V35+k*V36+]l*V37+ 
m*V38+u 
普通 最 小 二 乘 回 归 分 析 步 骤 及 结果 如 下 : 
四 进入 Stata 14.0， 打 开 相 关 数 据 文 件 ， 弹 出 “ 主 界面 ”对 话 框 。 
加 在 “ 主 界面 ”对 话 框 的 “Command” 文 本 框 中 输入 命令 : 


(1) sw regress V2 V26-V38,pr(0.05) 

本 命令 的 含义 是 使 用 逐步 回归 分 析 方 法 ， 以 “保费 收入 合计 ”为 因 变 量 ， 以 “ 男 ”“ 女 ” 
“博士 ”“ 硕 士 "“ 学 士 "'“ 大 专 ”“ 中 专 以 下 ”“ 高 级 ”“ 中 级 ”“ 初 级 ”“ 三 十 五 岁 以 下 ”“ 
六 岁 到 四 十 五 岁 ”“ 四 十 六 岁 以 上 ”为 自 变 量 ， 进 行 最 小 二 乘 回归 分 析 。 


Wn 
wh 


(2 ) encode V2,gen(company) 
本 命令 旨 在 将 V2 这 一 字符 串 变 量 转化 为 数值 型 变量 company， 以 便 进行 下 一 步 操 作 。 


(3)reg V2 V26-V38,vce(cluster company) 

本 命令 的 含义 是 以 “保费 收入 合计 ”为 因 变 量 ， 以 “ 男 ”“ 女 ”“ 博 士 " “硕士 ”“ 学 十 " 
“大 专 *”“ 中 专 以 下 ”“ 高 级 ”“ 中 级 ”“ 初 级 ”“ 三 十 五 岁 以 下 ”“ 三 十 六 岁 到 四 十 五 岁 ”“ 四 十 
六 岁 以 上 ”为 自 变量 ， 并 使 用 以 “bank” 为 聚 类 变量 的 聚 类 稳健 标准 差 ， 进 行 最 小 二 乘 回归 分 析 。 


(4)reg V2 V26-V30 V33-V38,vce(cluster company) nocon 

本 命令 是 在 上 步 回归 的 基础 上 ， 剔 除 掉 不 显著 的 自 变量 以 后 ， 以 “保费 收入 合计 ”为 因 
变量 ， 以 V26-V30、V33-V38 等 变量 为 自 变 量 ， 并 使 用 以 “company” 为 聚 类 变量 的 聚 类 稳健 
标准 差 ， 进 行 最 小 二 乘 回 归 分 析 。 


加 设置 完毕 ， 按 键盘 上 的 回 车 键 确认 。 
在 Statal 4.0“ 主 界面 ”的 结果 窗口 可 以 看 到 如 图 23.29~ 图 23.32 所 示 的 分 析 结 果 : 


NN 和 
NAN AAANAN\ NN 人 

(1) 图 23.29 是 使 用 逐步 回归 分 析 方 法 ， 以 “保费 收入 合计 ”为 因 变量 ， 以 “ 男 ”“ 女 ” 
“博士 ” “硕士 ”“ 学 十 >”“ 大 专 " “中 专 以 下 ” “高 级 ”“ 中 级 ”“ 初 级 ”“ 三 十 五 岁 以 下 
“三 十 六 岁 到 四 十 五 岁 ”“ 四 十 六 岁 以 上 ”为 自 变量 ， 进 行 最 小 二 乘 回归 分 析 的 结果 。 


sw regress V2 Ts (0.05) 
with full model 
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p= 0.9997 >= 0.0500 r v30 
p= 0.8471 >= 0.0500 rt V37 
p= 0.1990 >= 0.0500 rt g V35 
p= 0.2081 >= 0.0500 removing V29 

Source ss 上 ms Nuiber of obs = 42 

F( 9 32) = 668.20 

Hodel | 8.3702e+09 9 930018468 Prob > 了 = 0.0000 

Residual | 44538456.9 32 1391826.78 R-squared = 0.9947 

Adj R-squared = 0.9932 

Toral | 8.4147e+09 41 205236699 Root HSE = 1179.8 

ve Coef. Std. Err. 上 p>lcl [95* Conf. Interval] 

V26 | -4.676808 1.199748 -3.90 0.000 -7.120615 -2.233 

V27 | -9.540191 1.456879 -6.55 0.000 -12.50776 -6,572626 

v2 316.9149 。 75.5445 4.20 0.000 163.0358 470.794 

v36 6.465953 = 1.16867 5.53 0.000 4.08545 -8.846457 

V38 7.575736 1.477396 5.13 0.000 4.566379 10.58509 

v31 4.26689 .6656031 6.41 0.000 2.911101 。 5,622679 

V32 2.087525 。 .4284813 4.87 “0.000 1.214737 。 2,960312 

V33 | -49.23041 10.12065 -4.86 0.000 -69.84549 -28.61533 

V34 10.0708 2.207833 4.56 -0.000 5.573595 14.56801 

_cons 5.321901 262.0074 0.02 0.984 -528.3698 539.0136 


23.29 ”回归 分 析 结 果 图 1 


在 上 述 分 析 结 果 中 ， 我 们 可 以 得 到 很 多 信息 。 可 以 看 出 共有 42 个 样本 参与 了 分 析 ， 模 型 
的 F 值 (9, 32) =668.20, P 值 (Prob > F) = 0.0000， 说 明 模型 整体 上 是 非常 显著 的 。 模 型 的 可 
决 系数 (R-squared) 为 0.9947， 模 型 修正 的 可 决 系数 (Adj R-squared) 为 0.9932， 说 明 模型 的 
解释 能 力 是 非常 优秀 接近 完美 的 。 

模型 经 过 四 次 剔除 变量 后 得 到 最 终结 果 。 第 一 个 模型 是 包含 全 部 自 变 量 的 全 模型 ， 该 模 
型 中 V30 变量 的 系数 显著 性 P 值 高 达 0.9997， 被 剔除 掉 ;， 第 二 个 模型 是 剔除 掉 自 变量 V30 以 
后 的 模型 ， 该 模型 中 V37 变量 的 系数 显著 性 P 值 高 达 0.8471， 被 剔除 掉 ， 第 三 个 模型 是 剔除 
掉 自 变量 V30、V37 以 后 的 模型 ， 该 模型 中 V35 变量 的 系数 显著 性 P 值 高 达 0.1990， 被 剔除 
掉 ; 第 四 个 模型 是 剔除 掉 自 变量 V30、V37、V35 以 后 的 模型 ， 该 模型 中 V29 变量 的 系数 显著 
性 P 值 高 达 0.2081， 被 剔除 掉 。 吻 除 掉 自 变 量 V30、V37、V35、V29 以 后 ， 我 们 得 到 最 终 
归 模 型 。 

在 最 终 回 归 模 型 中 ， 变 量 V26 的 系数 标准 误 是 1.199748，t 值 为 -3.90，P 值 为 0.000， 系 
数 是 非常 显著 的 ，95% 的 置信 区 间 为 [-7.120615, -2.233]。 变 量 V27 的 系数 标准 误 是 1.456879， 
t 值 为 -6.55，P 值 为 0.000， 系 数 是 非常 显著 的 ，95% 的 置信 区 间 为 [-12.50776, -6.572626]。 变 
量 V28 的 系数 标准 误 是 75.5445，t 值 为 4.20，P 值 为 0.000， 系 数 是 非常 显著 的 ，95% 的 置信 
区 间 为 [163.0358, 470.794]。 变 量 V36 的 系数 标准 误 是 1.16867，t 值 为 5.53, P 值 为 0.000， 系 
数 是 非常 显著 的 ，95% 的 置信 区 间 为 [4.08545, 8.846457]。 变 量 V38 的 系数 标准 误 是 1.477396， 
t 值 为 5.13，P 值 为 0.000， 系 数 是 非常 显著 的 ，95% 的 置信 区 间 为 [4.566379, 10.58509]。 变 量 
V31 的 系数 标准 误 是 0.6656031，t 值 为 6.41，P 值 为 0.000， 系 数 是 非常 显著 的 ，95% 的 置信 
区 间 为 [2.911101, 5.622679]。 变 量 V32 的 系数 标准 误 是 0.4284813，t 值 为 4.87, P 值 为 0.000， 


回 
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2.207833,t 值 为 4.56,P 值 为 0.000, 系数 是 非常 显著 的 ,95% 的 置信 区 间 为 [5.573595, 14.56801]。 
常数 项 的 系数 标准 误 是 262.0074，t 值 为 0.02，P 值 为 0.984， 系 数 是 非常 不 显著 的 ，95% 的 置 
言 区 间 为 [-528.3698, 539.0136]。 
最 终 最 小 二 乘 回归 模型 的 方程 是 : 
保费 收入 合计 = -4.676808 * 男 -9.540191 * 女 + 316.9149 *V 博士 + 4.26689 * 大 专 + 2.087525 
* 中 专 以 下 -49.23041 * 高 级 + 10.0708 * 中 级 + 6.465953 * 三 十 五 岁 以 下 + 7.575736 * 四 十 六 岁 以 
上 +u 
经 过 以 上 最 小 二 乘 回归 分 析 ， 可 以 发 现 我 国 财产 保险 公司 的 总 保费 收入 水 平 与 公司 职员 
的 性 别 、 年 龄 、 职 称 、 文 化 水 平 都 有 一 定 的 显著 关系 。 有 具体 而 言 ， 中 级 职称 或 者 大 专 、 中 专 以 
下 、 博士 学 历 或 者 三 十 五 岁 以 下 、 四 十 六 岁 以 上 的 职员 对 公司 的 总 保费 收入 有 拉动 效应 , 尤其 
是 博士 学 历 的 职员 ,每 增加 一 单位 会 带 来 对 应 保费 收入 的 300 多 倍 的 增加 ; 高 级 职称 或 者 男性 、 
女性 的 职员 对 公司 的 总 保费 收入 有 拖 后 效应 。 
(2) 图 23.30 是 将 V2 这 一 字符 串 变量 转化 为 数值 型 变量 company 的 结果 。 选 择 “Data” 
|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 到 如 图 23.30 所 示 
的 变量 company 的 相关 数据 。 


ET 


图 23.30 回归 分 析 结 果 图 2 

(3) 图 23.31 是 以 “保费 收入 合计 ” 为 因 变 量 ， 以 “ 男 ” a “博士 ” “硕士 ” “学 

士 ”“ 大 专 ”“ 中 专 以 下 ”“ 高 级 ”“ 中 级 ”“ 初 级 ”“ 三 十 五 岁 以 下 ”“ 三 十 六 岁 到 四 十 五 
岁 ”“ 四 十 六 岁 以 上 ”为 自 变量 ， 并 使 用 以 “company” 为 聚 类 变量 的 聚 类 稳健 标准 差 ， 进 行 
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回归 分 析 的 结果 。 


+ reg V2 V26-V38,vce(cluster company) 


Linear regression 
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Nuiber of obs = 42 


Fl 9, 
Prob > 了 


41) = 


R-squared = 0.9953 


Root HSE 


= 1194.2 


(std. Err. adjusted for 42 clusters in company) 


Robuac 
V2 Coef. Std. Err. t P>1cl [95% Conf. Interval] 
V26 -49.96684 408.9247 -0.12 0.903 -875.8069 775.8733 
V27 | -57.82458 411.0561 -0.14 0.889 -887.9692 772.32 
Vaa | 331.9875 504.4419 = 0.66 0.514 -686.7536 1350.729 
V29 -3.383889 402.605 -0.01 0.993 -816.4611 809.6933 
vao .18715 403.2606 0.00 1.000 = -814.2142 814.5885 
Val| 3.449022 403.5808 。 ool 0.993 -811.5989 819.4969 
V32 2.419306 403.5671 0.01 0.995 -812.601 817.4396 
V33 | -40.73576 14.24353 -2.86 0.007 -69.50115 -11.97037 
Va4 | 7.946403 3.474406 2.29 0027 .9296976 14.96311 
V3s | .4157945 .3465745 -1.20 0.237 -1.115716 .284127 
V36 53.88369 14.60685 3.69 0.001 24.38457 83.38282 
V37 | 4s6i66014 14,19963 3.29 0.002 17.9834 -75.33687 
vie | 5a68091 14.33681 3.81 0.000 。 25.72713 93.6347 
_cons -61.08191 452.7574 -0.13 0.893 -975.4439 853.2801 
图 23.31 回归 分 析 结 果 图 3 
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我 们 可 以 看 出 ， 该 结果 中 有 很 多 变量 系数 的 显著 性 是 非常 差 的 ， 需 要 把 不 显著 的 变量 进 


行 剔 除 后 再 进行 进一步 分 析 。 


(4) 图 23.32 是 在 上 步 回 归 的 基础 上 ， 吻 除 掉 不 显著 的 自 变 量 以 后 ， 以 “保费 收入 合计 ” 
为 因 变 量 ， 以 V26~V30、V33~V38 为 自 变量 ， 并 使 用 以 “company” 为 聚 类 变量 的 聚 类 稳健 
标准 差 ， 进 行 最 小 二 乘 回归 分 析 的 结果 。 


， reg V2 V26-V30 V33-V38 ,vce(oluster company) nocon 


Linear regression 


(Std. Err. edjusted xcr 


Number of chs 
ta je 
Prob > 了 


a 


aquared 


Root NSE 


=- a2 


~ 0.9956 
= 1161.6 


42 clusters in corpary| 


Fobusc 
ve Coef. ged. Ecr. 5 pzlel I95¢ Cont. Intervell 
V25 | -39.62343 20.40121 -2.92 0.006 。 -100.8245 -18.42236 
Va7 | -68.47514 22.08822 -3.10 0.003 -113.0832 -23.86708 
Vas | 317.2921 121.9827 2.60 0.013 -70.94298 563.6413 
29 | -7.326464 2.053083 -3.57 0.001 -11.47275 -3.180179 
N30 | -2.483197 1.08616 -2.29 0.027 -4.673724 ,2903903 
93 | -37.78445 19.01396 -3.15 0.003 -69.04714 -13.59175 
aa | 7.574484 3.055632 2.48 0.017 1.403511 13.74546 
Was | -.667158 .236078 -2.83 0.007 -1.143927 。 -.1903889 
v35 | G67.18056 21.65574 3.10 0.003 23.4459 。 110.9152 
Va7 | 59.41212 20.96529 2.85 0.007 17.27382 。 101.5504 
vaa 67.9182 21.51952 3.16 0.003 24.45843 111.378 


图 23.32 ”回归 分 析 结果 图 4 


可 以 看 出 ， 在 剔除 掉 不 显著 的 自 变量 以 后 ， 以 “保费 收入 合计 ”为 因 变 量 ， 以 V26~V30、 
V33~V38 为 自 变量 ， 并 使 用 以 “company” 为 聚 类 变量 的 聚 类 稳健 标准 差 ， 进 行 最 小 二 乘 回归 
分 析 的 结果 与 普通 最 小 二 乘 回归 分 析 有 所 区 别 。 

在 该 模型 中 ， 最 终 保留 的 自 变量 有 “ 男 ”“ 女 ”“ 博 士 ”“ 硕 士 ” “学士 ”“ 高 级 ”“ 中 
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级 ”“ 初 级 ”“ 三 十 五 岁 以 下 ”“ 三 十 六 岁 到 四 十 五 岁 ”“ 四 十 六 岁 以 上 ” 
该 模型 方程 为 : 
保费 收入 合计 = -59.62343 * 男 -68.47514 * 女 + 317.2921 *V 博士 -7.326464 * 硕 士 -2.483157 * 
学 士 -37.78445 * 高 级 + 7.574484 * 中 级 -0.667158 * 初 级 + 67.18056 * 三 十 五 岁 以 下 + 59.41212 * 
三 十 六 岁 到 四 十 五 岁 + 67.9182 * 四 十 六 岁 以 上 +u 
经 过 以 上 分 析 , 可 以 发 现 我 国 财产 保险 公司 的 总 保费 收入 水 平 与 公司 职员 的 性 别 、 年 龄 、 
职称 、 文 化 水 平 都 有 一 定 的 显著 关系 。 具 体 而 言 ， 中 级 职称 或 者 大 专 、 中 专 以 下 、 博 士 学 历 
或 者 三 十 五 岁 以 下 、 三 十 六 岁 到 四 十 五 岁 、 四 十 六 岁 以 上 的 职员 对 公司 的 总 保费 收入 有 拉动 
效应 ， 尤 其 是 博士 学 历 的 职员 ， 每 增加 一 单位 会 带 来 对 应 保费 收入 的 300 多 倍 的 增加 ; 高 级 
职称 、 初 级 职称 或 者 硕士 学 历 、 学 士 学 历 或 者 男性 、 女 性 的 职员 对 公司 的 总 保费 收入 有 拖 后 
效应 。 


2. 以 “赔款 支出 合计 ”为 因 变量 ， 以 “ 男 ”“ 女 ”“ 博 士 ”“ 硕 士 ”“ 学 士 ”“ 大 专 ” 
“中 专 以 下 ”“ 高 级 ”“ 中 级 ” er ee “三 十 六 岁 到 四 十 五 岁 ”“ 四 十 六 
岁 以 上 ”为 自 变量 ， 进 行 最 小 二 乘 回归 

建立 线性 模型 : 

V14=a*V26+tb*V27+tc*V28+d*V29+te*V30+f*V31+g*V32+h*V33+i*V34+j*V35+k*V36+l* 
V37+m*V38+ u 

普通 最 小 二 乘 回归 分 析 步 骤 及 结果 如 下 : 
加 进入 Stata 14.0， 打 开 相 关 数 据 文 件 ， 弹 出 “ 主 界面 ”对 话 框 。 
贺 在 “ 主 界面 ”对 话 框 的 “Command” 文 本 框 中 输入 命令 : 


(1 ) sw regress V14 V26-V38,pr(0.05) 

本 命令 的 含义 是 使 用 逐步 回归 分 析 方 法 ， 以 “赔款 支出 合计 ”为 因 变 量 ， 以 “ 男 ”“ 女 ” 
“博士 ” “硕士 ”“ 学 士 ”“ 大 专 "“ 中 专 以 下 "”“ 高 级 "“ 中 级 ”“ 初 级 ”“ 三 十 五 岁 以 下 "”“ 三 十 
六 岁 到 四 十 五 岁 ”“ 四 十 六 岁 以 上 ”为 自 变量 ， 进 行 最 小 二 乘 回归 分 析 。 


(2)reg V14 V26-V38,vce(cluster company) 

本 命令 的 含义 是 以 “赔款 支出 合计 ”为 因 变量 ， 以 “ 男 ”“ 女 ”“ 博 士 ”“ 硕 士 ”“ 学 士 
“大 专 ”*”“ 中 专 以 下 ”“ 高 级 ”“ 中 级 ”“ 初 级 ”“ 三 十 五 岁 以 下 ”“ 三 十 六 岁 到 四 十 五 岁 ”“ 四 十 
六 岁 以 上 ”为 自 变量 ， 并 使 用 以 “bank” 为 聚 类 变量 的 聚 类 稳健 标准 差 ， 进 行 最 小 二 乘 回归 分 析 。 


(3 ) reg V14 V27 V29-V31 V34-V38,vce(cluster company) nocon 

本 命令 是 在 上 步 回归 的 基础 上 ， 剔 除 掉 不 显著 的 自 变 量 以 后 ， 以 “赔款 支出 合计 ”为 因 
变量 ， 以 V26~V30、V33~V38 为 自 变 量 ， 并 使 用 以 “company” 为 聚 类 变量 的 聚 类 稳健 标准 
差 ， 进 行 最 小 二 乘 回归 分 析 。 


加 设置 完毕 ， 按 键盘 上 的 回 车 键 确认 。 
在 Stata 14.0“ 主 界面 ”的 结果 窗口 我 们 可 以 看 到 如 图 23.33~ 图 23.35 所 示 的 分 析 结果 : 
(1) 图 23.33 是 使 用 逐步 回归 分 析 方法 ， 以 “赔款 支出 合计 ”为 因 变 量 ， 以 “ 男 ”“ 女 ” 
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“博士 ” “硕士 “学 士 ” “大 专 " “中 专 以 下 ” “高 级 ”“ 中 级 ”“ 初 级 ”“ 三 十 五 岁 以 下 ? 
“三 十 六 岁 到 四 十 五 岁 ”“ 四 十 六 岁 以 上 ”为 自 变量 ， 进 行 最 小 二 乘 回归 分 析 的 结果 。 


wa 3446 .50.00l 9 
eno | -27.89418 112.8038 -0.25 0.806 -257.668 201.8797 


23.33 ”回归 分 析 结 果 图 5 


在 上 述 分 析 结 果 中 ， 我 们 可 以 得 到 很 多 信息 。 可 以 看 出 共有 42 个 样本 参与 了 分 析 ， 模 型 
的 F 值 (9, 32) =708.01，P 值 (Prob > F) = 0.0000， 说 明 模 型 整体 上 是 非常 显著 的 。 模 型 的 可 
决 系数 (R-squared) 为 0.9950， 模 型 修正 的 可 决 系数 (Adj R-squared) 为 0.9936， 说 明 模型 的 
解释 能 力 是 非常 优秀 接近 完美 的 。 

模型 经 过 四 次 剔除 变量 后 得 到 最 终结 果 。 第 一 个 模型 是 包含 全 部 自 变 量 的 全 模型 ， 该 模 
型 中 V26 变量 的 系数 显著 性 P 值 高 达 0.9855， 被 剔除 掉 ; 第 二 个 模型 是 剔除 掉 自 变量 V26 以 
后 的 模型 ， 该 模型 中 V32 变量 的 系数 显著 性 P 值 高 达 0.9251， 被 剔除 掉 ， 第 三 个 模型 是 剔除 
掉 自 变量 V26、V32 以 后 的 模型 ， 该 模型 中 V33 变量 的 系数 显著 性 P 值 高 达 0.4340， 被 剔除 
掉 ; 第 四 个 模型 是 剔除 掉 自 变量 V26、V32、V33 以 后 的 模型 ， 该 模型 中 V28 变量 的 系数 显著 
性 P 值 高 达 0.1746， 被 剔除 掉 。 剔 除 掉 自 变量 V26、V32、V33、V28 以 后 ， 我 们 得 到 最 终 回 
归 模 型 。 

在 最 终 回 归 模 型 中 ， 变 量 V38 的 系数 标准 误 是 0.8543404，t 值 为 2.73，P 值 为 0.010， 系 
数 是 非常 显著 的 ，95% 的 置信 区 间 为 [0.5907202，4.071189]。 变 量 V27 的 系数 标准 误 是 
0.8334345，t 值 为 -3.65，P 值 为 0.001， 系 数 是 非常 显著 的 ，95% 的 置信 区 间 为 [-4.738415， 
-1.343114]。 变 量 V35 的 系数 标准 误 是 0.1499392，t 值 为 -3.74，P 值 为 0.001， 系 数 是 非常 显 
著 的 ，95% 的 置信 区 间 为 [-0.86592, -0.2550878]。 变 量 V29 的 系数 标准 误 是 0.9732333，t 值 为 
-2.87, P 值 为 0.007， 系 数 是 非常 显著 的 ，95% 的 置信 区 间 为 [-4.776423, -0.8116002]。 变 量 V30 
的 系数 标准 误 是 0.2613666，t 值 为 -5.56，P 值 为 0.000， 系 数 是 非常 显著 的 ，95% 的 置信 区 间 
为 [-1.985825, -0.9210525]。 变 量 V31 的 系数 标准 误 是 0.4398462，t 值 为 -2.80，P 值 为 0.009， 
系数 是 非常 显著 的 ，95% 的 置信 区 间 为 [-2.128477， -0.3366022]。 变 量 V37 的 系数 标准 误 是 
0.5664019，t 值 为 2.81，P 值 为 0.008， 系 数 是 非常 显著 的 ，95% 的 置信 区 间 为 [0.4389036， 
2.746349]。 变量 V36 的 系数 标准 误 是 .6995871, t 值 为 4.42, P 值 为 0.000, 系数 是 非常 显著 的 ， 
95% 的 置信 区 间 为 [1.669141, 4.519165]。 变 量 V34 的 系数 标准 误 是 0.7713446，t 值 为 3.85，P 
值 为 0.001, 系数 是 非常 显著 的 ，95% 的 置信 区 间 为 [1.396873, 4.539229]。 常 数 项 的 系数 标准 误 
是 112.8038，t 值 为 -0.25，P 值 为 0.806， 系 数 是 非常 不 显著 的 ，95% 的 置信 区 间 为 [-257.668， 
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最 终 最 小 二 乘 回归 模型 的 方程 是 : 

赔款 支出 合计 = -3.040764 * 女 -2.794011 * 硕 士 -1.453439 * 学 士 -1.23254 * 大 专 + 2.968051 * 
中 级 -0.5605039 es 3.094153 * 三 十 五 岁 以 下 + 1.592627 * 三 十 六 岁 到 四 十 五 岁 + 2.330955 * 
四 十 六 岁 以 上 +u 

经 过 以 上 最 小 二 乘 回归 分 析 ， 可 以 发 现 我 国 财产 保险 公司 的 总 赔款 支出 水 平 与 公司 职员 
的 性 别 、 年 龄 、 职 称 、 文化 水 平 都 有 一 定 的 显著 关系 。 具体 而 言 , 中 级 职称 或 者 三 十 五 岁 以 下 、 
三 十 六 岁 到 四 十 五 岁 、 四 十 六 岁 以 上 的 职员 对 公司 的 总 赔款 支出 有 拉动 效应 ; 硕士 学 历 、 学 士 
学 历 、 大 专 学 历 或 者 初级 职称 或 者 女性 的 职员 对 公司 的 总 赔款 支出 有 拖 后 效应 。 


(2) 图 23.34 是 以 “赔款 支出 合计 ”为 因 变量 ， 以 “ 男 ”“ 女 ”“ 博 士 ” “硕士”“ 学 
十 。 大专 "“ 中 专 愉 下 “高级 "“ 中 统 ”“ 初 级。 “三 十 下 以 下 “三 十 太岁 到 四 二 五 
岁 ”“ 四 十 六 岁 以 上 ”为 自 变 量 ， 并 使 用 以 “company” 为 聚 类 变量 的 聚 类 稳健 标准 差 ， 进 行 
最 小 二 乘 回归 分 析 的 结果 


,reg Vi4 V26-V38,vce(loluster company) 


Linear regression Number of obs = 42 
F( 8, 41) 
Prob > 了 
R-squared 0.9954 
Root HSE 619.01 


(std, Err. adjusted for 42 clusters in company) 


Robuar 
V14 Coef. Std. Err. t Pp>ltl [95% Conf. Interval] 
V26 -5.85334 147.8865 -0.04 0.969 -304.5162 292.8095 
V27 | -7.622048 148.9048 -0.05 0.959 -308.3414 。 293.0974 
V28 | -51.51143 197.0673 -0.26 0.795 -449.497 346.4742 
V29 | -7.412917 145.8779 -0.05 0.960 -302.0192 287.1934 
V30 | -6.574428 145.9988 -0.05 0.964 -301.425 288.2761 
V3l | -6.517744 146.1778 -0.04 0.965 -301.7297 288.6943 
V32 | -5.356681 146.1497 -0.04 0.971 -300.5119 289.7986 
V33 | -4.732002 7.031998 -0.67 0.505 -18.93341 。 9.469406 
V34 4.187575 = 1.93891 2.16 0.037 .2718671 。 8.103282 
V35 | -.4520437 .229336 -1.97 0.055 -915197 .0111097 
V36 13.4855 。 5.938586 2.27 0.028 1.49228 。 25.47872 
V37 12.08312 。 5.730819 2.11 0.041 .5095007 = 23.65675 
v38 12.78781 5.596631 2.28 0.028 1.48519 24.09044 

_cons 95.38777 172.7519 0.55 0.584 = -253.4918 -444.2673 


图 23.34 回归 分 析 结 果 图 6 
我 们 可 以 看 出 ， 该 结果 中 有 很 多 变量 系数 的 显著 性 是 非常 差 的 ， 需 要 把 不 显著 的 变量 进 
行 剔除 后 再 进行 进一步 分 析 。 


(3) 图 23.35 是 在 上 步 回 归 的 基础 上 ， 吻 除 掉 不 显著 的 自 变 量 以 后 ， 以 “赔款 支出 合计 ” 
为 因 变 量 ， 以 V26~V30、V33~V38 为 自 变量 ， 并 使 用 以 “company” 为 聚 类 变量 的 聚 类 稳健 
标准 差 ， 进 行 最 小 二 乘 回归 分 析 的 结果 。 


554 


、、 


NR 
J 


\ 
\\N\\ 


第 23 章 Siaia 在 保险 业 中 的 应 用 | 


WW 


er company) nocon 


Nuiber of obs = 42 
F( 9, 41) -83669.89 

Prop > 了 = 0.0000 

R-squared = 0.9955 

Root NSE = 594.47 

(Std. Err. adjusted for 42 clusters in company) 

Robust 

V14 Coef. Std,. Err. 上 p>ltl [95* Conf. Interval] 
V27 | -3.061834 1.251517 -2.45 0.019 -5.589323 -.5343447 
V29 | -2.809717 1.312409 -2.14 0.038 -5.46018 。 -.1592543 
V30 -1.46242 .4131895 -3.54 0.001 -2.296873  -.6279665 
V3l | -1.248829 .5566316 -2.24 0.030 -2.372969  -.1246884 
V34 2.998872 。 .9540455 3.14 0.003 1.072138 4.925606 
V35 | -,5609798 .1958466 -2.86 0.007  -.9565002  -.1654595 
V36 3.116446 。 1.038834 3.00 0.005 1.018478 。 5.214415 
V37 1.600188 。 .7876351 2.03 0.049 .0095266 3.190849 
V38 2.326594 -1.041013 2.23 0.031 .2242263 4.428962 


图 23.35 回归 分 析 结 果 图 7 


可 以 看 出 ,在 剔除 掉 不 显著 的 自 变量 以 后 , 以 “赔款 支出 合计 ”为 因 变量 , 以 V27、V29~V31、 
V34~V38 为 自 变量 ， 并 使 用 以 “company ”为 聚 类 变量 的 聚 类 稳健 标准 差 ， 进 行 最 小 二 乘 回 归 
分 析 的 结果 与 普通 最 小 二 乘 回归 分 析 有 所 区 别 。 

在 该 模型 中 ， 最 终 保 留 的 自 变 量 有 “ 女 ”“ 硕 士 ”“ 学 士 ”“ 大 专 ” “中 级 ”“ 初 级 ” 
“三 十 五 岁 以 下 ”“ 三 十 六 岁 到 四 十 五 岁 ”“ 四 十 六 岁 以 上 ”。 

该 模型 方程 为 : 

赔款 支出 合计 = -3.061834 * 女 -2.809717* 硕 士 -1.46242 * 学 士 -1.248829 * 大 专 +2.998872 * 中 
级 -0.5609798* 初 级 +3.116446* 三 十 五 岁 以 下 + 1.600188 * 三 十 六 岁 到 四 十 五 岁 + 2.326594 * 四 
十 六 岁 以 上 +u 

经 过 以 上 分 析 , 可 以 发 现 我 国 财产 保险 公司 的 总 赔款 支出 水 平 与 公司 职员 的 性 别 、 年 龄 、 
职称 、 文 化 水 平 都 有 一 定 的 显著 关系 。 有 具体 而 言 ， 中 级 职称 或 者 三 十 五 岁 以 下 、 三 十 六 岁 到 
四 十 五 岁 、 四 十 六 岁 以 上 的 职员 对 公司 的 总 赔款 支出 有 拉动 效应 ; 初级 职称 或 者 硕士 学 历 、 
学 士 学 历 、 大 专 学 历 或 者 女性 的 职员 对 公司 的 总 赔款 支出 有 拖 后 效应 。 


23.7 ”因子 分 析 


对 于 因子 分 析 ， 我 们 准备 从 以 下 两 部 分 进行 : 
第 一 ， 对 构成 保费 收入 的 各 个 变量 提取 公 因 子 。 
第 二 ， 对 构成 赔款 支出 的 各 个 变量 提取 公 因 子 。 
1. 对 构成 保费 收入 的 各 个 变量 提取 公 因 子 
操作 步骤 如 下 : 


进入 Stata 14.0， 打 开 相 关 数 据 文件 ， 弹 出 “ 主 界面 ”对 话 框 。 
在 “ 主 界面 ”对 话 框 的 “Command” 文 本 框 中 分 别 输入 下 面 的 命令 并 按键 盘 上 的 回 
车 键 进行 确认 : 
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(1 ) factorV3-V11,pcf 
本 命令 的 含义 是 采用 主 成 分 因子 法 对 变量 V3-V11 进行 因子 分 析 。 


(2 ) rotate 
本 命令 的 含义 是 采用 最 大 方差 正 交 旋 转 法 对 因子 结构 进行 旋转 。 


(3 ) loadingplot,factors(2) yline(0) xline(0) 
本 命令 的 含义 是 绘制 因子 旋转 后 的 因子 载荷 图 。 


(4 ) predict fl f2 
本 命令 的 含义 是 展示 因子 分 析 后 各 个 样本 的 因子 得 分 情况 。 


(5 ) correlate flf2 
本 命令 的 含义 是 展示 系统 提取 的 两 个 主因 子 的 相关 系数 矩阵 。 


(6 ) scoreplot,mlabel(V1) yline(0) xline(0) 
本 命令 的 含义 是 展示 每 个 样本 的 因子 得 分 示意 图 。 


(7 ) estat kmo 
本 命令 的 含义 是 展示 本 例 因子 分 析 的 KMO 检验 结果 。 


(8 ) screeplot 
本 命令 的 含义 是 展示 本 例 因 子 分 析 所 提取 的 各 个 因子 的 特征 值 碎 石 图 。 


加 设置 完毕 ， 等 待 输出 结果 
在 Stata 14.0“ 主 界面 ”的 结果 窗口 我 们 可 以 看 到 如 图 23.36~ 图 23.50 所 示 的 分 析 结 果 。 
(1) 图 23.36 展 示 的 是 因子 分 析 的 基本 情况 。 


mber of cbs = a2 


Retained fectors = 

Humper oz Farama = 17 
Elgenvalue Dirrerence Proporclon 。 cumulaclve 
7.40113 6.39988 .8223 0.8293 
1.00125 0.67312 0.1112 0.9336 
0.32013 0.19604 0.0365 0.9701 
0.13130 0.03731 0.0146 0.9846 
0.09399 0.07151 0.0104 0.9951 
0.02240 0.01223 0.0025 0.9976 
0.01025 0.00331 .0011 0.9987 
.00694 90.00240 0.0008 9.9995 


0.00454 a 0.0005 1.0000 


= 849.14 Prop>ehi2 = n.0000 


Peds3dssls 


直下 


图 23.36 ”因子 分 析 结果 图 1 
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图 23.36 的 上 半 部 分 说 的 是 因子 分 析 模 型 的 一 般 情况 ， 从 图 中 我 们 可 以 看 出 共有 42 个 样本 
(Number of obs= 42) 参与 了 分 析 ， 提 取保 留 的 因子 共有 两 个 (Retained factors = 2) ， 模 型 
LR 检 验 的 卡 方 值 (LR test: independent vs. saturated: chi2(36)) 为 849.14，P 值 (Prob>chi2) 为 
0.0000， 模 型 非常 显著 。 图 23.36 的 上 半 部 分 最 左 列 〈Factor) 说 明 的 是 因子 名 称 ， 可 以 看 出 模 
型 共 提取 了 9 个 因子 。Eigenvalue 列 表示 的 是 提取 因子 的 特征 值 情况 , 只 有 前 两 个 因子 的 特征 值 
是 大 于 1 的 ， 其 中 第 一 个 因子 的 特征 值 是 7.40113， 第 二 个 因子 的 特征 值 是 1.00125。Proportion 
列表 示 的 是 提取 因子 的 方差 贡献 率 ， 其 中 第 一 个 因子 的 方差 贡献 率 为 82.23%， 第 二 个 因子 的 
方差 贡献 率 为 11.12%。Cumulative 列 表示 的 是 提取 因子 的 累计 方差 贡献 率 ， 其 中 前 两 个 因子 的 
累计 方差 贡献 率 为 93.36%。 

图 23.36 的 下 半 部 分 说 的 是 模型 的 因子 载荷 矩阵 以 及 变量 的 未 被 解释 部 分 。 其 中 ，Variable 
列表 示 的 是 变量 名 称 ，Factorl、Factor2 两 列 分 别 说 明 的 是 提取 的 前 两 个 主因 子 〈 特 征 值 大 于 1 
的 ) 对 各 个 变量 的 解释 程度 ， 本 例 中 ，Factorl 主 要 解释 的 是 V3、V4、V5、V6、V8、V9、V10、 
V11 这 8 个 变量 的 信息 ，Factor2 主 要 解释 的 是 V7 变量 的 信息 。Uniqueness 列 表示 变量 未 被 提取 
的 前 两 个 主因 子 解释 的 部 分 ， 可 以 发 现在 舍弃 其 他 主因 子 的 情况 下， 信息 的 损失 量 是 很 小 的 。 

(2) 图 23.37 展 示 的 是 对 因子 结构 进行 旋转 的 结果 。 学 者 们 的 研究 表明 ， 旋 转 操作 有 助 于 
进一步 简化 因子 结构 。Stata 14.0 支 持 的 旋转 方式 有 两 种 ,一 种 是 最 大 方差 正 交 旋转 ， 一 般 适用 
于 相互 独立 的 因子 或 者 成 分 ， 也 是 系统 默认 的 情况 ， 另 外 一 种 是 promax 和 斜 交 旋转 ， 它 允许 因 
子 或 者 成 分 之 间 存 在 相关 关系 。 此 处 我 们 选择 系统 默认 方式 ,当然 我 们 后 面 的 操作 也 证 明了 这 
样 做 的 恰当 性 。 


. rotate 


Factor analysis/correlation Number of obs = 42 
Nethod: principal-component factors Retained factors = 2 
Rotation: orthogonal varimax (Kaiser off) Number of params = 17 

Factor Variance Difference Proportion Cumulative 
Factorl 7.40037 6.39837 0.8223 0.8223 
Factor2 1.00201 吕 0.1113 0.9336 


LR test: independent vs. saturated: chi2(36) = 849.14 Prob>chi2 = 0.0000 


Rotated factor loadings (pattern matrix) and unique variances 


Variable | Factorl Factor2 Uniqueness 
va 0.9882 0.0086 0.0234 
Va 0.9925 0.0035 0.0150 
vs 0.9825 0.0082 0.0346 
ve 0.9822 。 0.0213 0.0349 
V7 0.0071 0.9998 0.0004 
ve 0.8711 -0.0213 0.2407 
v9 0.9424 -0.0244 0.1113 
Vio 0.9485 -0.0271 0.0997 
Vil 0.9810 0.0058 0.0376 

Fact. tation matri 


Factorl Factorz 


Factor! | 0.9999 0.0109 
Factor2 | -0.0109 0.9999 


23.37 ”因子 分 析 结果 图 2 
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图 23.37 包 括 3 部 分 内 容 , 第 一 部 分 说 的 是 因子 旋转 模型 的 一 般 情况 ， 从 图 中 我 们 可 以 看 出 
共有 42 个 样本 (Number of obs = 42) 参与 了 分 析 ， 提 取保 留 的 因子 共有 两 个 (Retained factors 
= 2) ， 模 型 LR 检验 的 卡 方 值 (LR test: independent vs. saturated: chi2(15)) 为 849.14，P 值 
(Prob>chi2 ) 为 0.0000， 模 型 非常 显著 。 最 左 列 〈Factor) 说 明 的 是 因子 名 称 ， 可 以 看 出 模型 
旋转 后 共 提 取 了 2 个 因子 。Proportion 列 表示 的 是 提取 因子 的 方差 贡献 率 ， 其 中 第 一 个 因子 的 方 
差 贡献 率 为 82.23%， 第 二 个 因子 的 方差 贡献 率 为 11.13%。Cumulative 列 表示 的 是 提取 因子 的 累 
计 方 差 贡 献 率 ， 其 中 前 两 个 因子 的 累计 方差 贡献 率 为 93.36%。 

图 23.37 的 第 二 部 分 说 的 是 模型 的 因子 载荷 矩阵 以 及 变量 的 未 被 解释 部 分 。 其 中 Variable 列 
表示 的 是 变量 名 称 ，Factor1、Factor2 两 列 分 别 说 明 的 是 旋转 提取 的 两 个 主因 子 对 各 个 变量 的 
解释 程度 ， 本 例 中 ，Factorl 主 要 解释 的 是 V3、V4、V5、V6、V8、V9、V10、V11 这 8 个 变量 
的 信息 ,Factor2 主 要 解释 的 是 V7 变量 的 信息 。Uniqueness 列 表示 变量 未 被 提取 的 前 两 个 主因 子 
解释 的 部 分 ， 可 以 发 现在 舍弃 其 他 主因 子 的 情况 下 ， 信 息 的 损失 量 是 很 小 的 。 

图 23.37 的 第 三 部 分 展示 的 是 因子 旋转 矩阵 的 一 般 情况 ,提取 的 两 个 因子 不 存在 相关 


(3) 图 23.38 展 示 的 是 因子 旋转 后 的 因子 载荷 图 。 因 子 载荷 图 可 以 使 用 户 更 加 直观 地 看 出 
各 个 变量 被 两 个 因子 解释 的 情况 。 


Factor loadings 


4 -6 
Factor 1 


RCRonsiaaon 


图 23.38 ”因子 分 析 结果 图 3 
与 前 面 的 分 析 相 同 ， 我 们 发 现 V3、V4、V5、V6、V8、V9、V10、V11 这 8 个 变量 的 信息 
主要 被 Factor1l 这 一 因子 所 解释 ，V7 变 量 主要 被 Factor2 这 一 因子 所 解释 。 


(4) 图 23.39 展 示 的 是 因子 分 析 后 各 个 样本 的 因子 得 分 情况 。 因 子 得 分 的 概念 是 通过 将 每 
个 变量 标准 化 为 平均 数 等 于 0 和 方差 等 于 1, 然 后 以 因子 分 析 系 数 进行 加 权 合 计 为 每 个 因子 构成 
的 线性 情况 。 以 因子 的 方差 贡献 率 为 权 数 对 因子 进行 加 权 求 和 , 即 可 得 到 每 个 样本 的 因子 综合 
得 分 。 
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. predict £1 £2 
(regression scoring assumed) 


Scoring coefficients (method = regression; based on varimax rotated factors) 


Variable Factorl Factor2 


V3 0.13354 -0.00073 
Va 0.13416 -0.00582 
V5 0.13278 -0.00105 
V6 0.13260 0.01209 
Y7 | -0.00843 0.99837 
ve 0.11759 0.01311 
V9 0.12719 0.01555 
V10 0.12850 -0.03598 
V11 0.13259 -0.00341 


图 23.39 因子 分 析 结 果 图 4 
根据 图 23.39 展示 的 因子 得 分 系数 矩阵 , 我 们 可 以 写 出 各 公 因 子 的 表达 式 。 值 得 一 提 的 是 ， 
在 表达 式 中 各 个 变量 已 经 不 是 原始 变量 ， 而 是 标准 化 变量 。 
表达 式 如 下 : 
F1=0.134* 企 业 财产 保险 保费 收入 +0.134* 机 动车 辆 保险 保费 收入 
+0.133* 货 物 运 输 保险 保费 收入 +0.133* 责 任 保险 保费 收入 
-0.008* 信 用 保证 保险 保费 收入 +0.118* 农 业 保险 保费 收入 
+0.127* 短 期 健康 保险 保费 收入 +0.128* 意 外 伤害 保险 保费 收入 
+0.133* 其 他 保险 保费 收入 


F2=0.000* 企 业 财产 保险 保费 收入 -0.006* 机 动车 辆 保险 保费 收入 
-0.001* 货 物 运输 保险 保费 收入 +0.012* 责 任 保险 保费 收入 
+0.998* 信 用 保证 保险 保费 收入 +0.013* 农 业 保险 保费 收入 
+0.015* 短 期 健康 保险 保费 收入 -0.036* 意 外 伤害 保险 保费 收入 
-0.004* 其 他 保险 保费 收入 


选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 23.40 所 示 的 因子 得 分 数据 。 
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.808698 


-3069125 
3797122 
09761 
1562162 
.3957704 


.833443 
.175956 
1.173794 

-0835976 


2659828 
-2738347 


-2411993 
.2853418 


325352 


.2161487 
-3402255 
.3090045 
3297262 

-.289706 

~.340679 
-1365643 


Vars: 41 Order: Dataset 


图 23.40 因子 分 析 结 果 图 5 
(5) 图 23.41 展 示 的 是 系统 提取 的 两 个 主因 子 的 相关 系数 和 矩阵。 


，correlate f1 f2 


(obs=42) 
| £2 
£1 1.0000 
£2 -0.0000 1.0000 
图 23.41 因子 分 析 结 果 图 6 


-1211258 ~.: 


~.0282422 
-1687711 


.0751878 ~. 
-109598 ~. 


-1927118 ~ 
.0915058 ~ 


.2468798 
3435441 ~ 


-1763587 
-1655136 
1665551 
.1652782 
.1663653 

.165479 


» 


Obs; 42 Filter; Off Hode; Edit CAP NUN 


从 图 23.41 中 可 以 看 出 ， 我 们 提取 的 两 个 主因 子 之 间 几 乎 没有 什么 相关 关系 ， 这 也 说 明了 
我 们 在 前 面 对 因 子 进 行 旋转 的 操作 环节 中 采用 最 大 方差 正 交 旋 转 方 式 是 明智 的 。 值 得 说 明 的 是 
图 中 妇 与 人 的 相关 系数 是 -0.0000 并 非 是 不 正确 的 ， 这 是 由 于 Stata 14.0 只 保留 了 4 位 小 数 所 导致 
的 ， 比 如 真实 的 数据 有 可 能 是 -0.00001， 那 么 结果 显示 的 就 是 -0.0000。 

(6) 图 23.42 展 示 的 是 每 个 样本 的 因子 得 分 示意 图 。 
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图 23.42 因子 分 析 结 果 图 7 


从 图 23.42 中 可 以 看 出 ， 所 有 的 样本 被 分 到 四 个 象限 ， 我 们 可 以 比较 直观 地 看 出 各 个 样本 
的 因子 得 分 分 布 情况 。 
(7) 图 23.43 展 示 的 是 本 例 因子 分 析 的 KMO 检 验 结果 。 


Kaiser-Neyer-Olkin measure of sampling adequacy 


Variable jano 
va | 0.9039 
Va 0.8543 
vs 0.9138 
ve 0.9122 
v7 | aaas 
ve | 0.9260 
ve 0.9121 
V10 0.8746 
val | msoa6 
Overall 0.8986 
图 23.43 因子 分 析 结 果 图 8 


KMO 检验 是 为 了 看 数据 是 否 适合 进行 因子 分 析 ， 其 取 值 范围 是 0~1。 其 中 ,0.9~1 表示 极 
好 ，0.8~0.9 表示 可 奖励 的 ，0.7~0.8 表示 还 好 ，0.6~0.7 表示 中 等 ，0.5~0.6 表示 糟糕 ，0~0.5 表 
示 不 可 接受 。 如 图 23.43 所 示 ， 本 例 中 总 体 (Overall) KMO 的 取 值 为 0.8986， 表 明 可 以 进行 
因子 分 析 。 各 个 变量 的 KMO 值 也 大 多 在 0.8 以 上 ， 所 以 本 例 是 比较 适合 因子 分 析 的 ， 模 型 的 
构建 是 有 意义 的 。 

(8) 图 23.44 展 示 的 是 本 例 因子 分 析 所 提取 的 各 个 因子 的 特征 值 碎 石 图 。 
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23.44 因子 分 析 结果 图 9 


碎 石 图 可 以 非常 直观 地 观测 出 提取 因子 的 特征 值 大 小 情况 。 图 23.44 的 横 轴 表示 的 是 系统 
提取 因子 的 名 称 ， 并 且 已 经 按 特 征 值 大 小 进行 降序 排列 好 ， 纵 轴 表 示 因 子 特征 值 的 大 小 情况 。 
从 图 23.44 中 可 以 轻松 地 看 出 本 例 中 只 有 前 两 个 因子 的 特征 值 是 大 于 1 的 。 


2. 对 构成 赔款 支出 的 各 个 变量 提取 公 因子 
操作 步骤 如 下 : 


加 进入 Stata 14.0， 打 开 相 关 数 据 文 件 ， 弹 出 “ 主 界面 ”对 话 框 。 
在 “ 主 界面 ”对 话 框 的 “Command” 文 本 框 中 分 别 输入 下 面 的 命令 并 按键 盘 上 的 回 
车 键 进行 确认 : 


(1) factor V15-V23,pcf 
本 命令 的 含义 是 采用 主 成 分 因子 法 对 变量 V15-V23 进行 因子 分 析 。 


(2 ) rotate 
本 命令 的 含义 是 采用 最 大 方差 正 交 旋 转 法 对 因子 结构 进行 旋转 。 


(3 ) predict fl 
本 命令 的 含义 是 展示 因子 分 析 后 各 个 样本 的 因子 得 分 情况 。 


(4 ) estat kmo 
本 命令 的 含义 是 展示 本 例 因子 分 析 的 KMO 检验 结果 。 


(5 ) screeplot 
本 命令 的 含义 是 展示 本 例 因 子 分 析 所 提取 的 各 个 因子 的 特征 值 碎 石 图 。 


设置 完毕 ， 等 待 输出 结果 。 
在 Stata 14.0“ 主 界面 ”的 结果 窗口 我 们 可 以 看 到 如 图 23.45~ 图 23.50 所 示 的 分 析 结 果 。 
(1) 图 23.45 展示 的 是 因子 分 析 的 基本 情况 。 
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~ factor V15-Y23,pcf 
{obs=42) 


Factor analysis/correlation Number of obs = 42 


Nethod: 了 1-: ie rs Rerained factors = 1 
Rorar: Numiber of params = 9 
Factor Eigenvalue Difference Proportion Cumulative 
7.28382 6.56972 0.8093 0.8093 
0.71410 0.11070 0.0793 0.8887 
0.60341 0.37245 0.0670 0.9557 
0.23095 0.11247 0.0257 0.9814 
0.11848 0.08619 0.0132 0.9945 
0.03230 0.02487 0.0036 0.9981 
0.00742 0.00094 0.0008 0.9989 
0.00648 0.00346 0.0007 0.9997 
0.00303 a 0.0003 1.0000 


LR test: independent vs. saturated: chi2(36) = 825.54 Prob>chi2 = 0.0000 


Factor loadings (pattern matrix) and unique variances 


Variable | Factorl Uniqueness 
V15 0.9850 0.0298 
V16 0.9834 0.0329 
V17 0.9749 0.0495 
Vie 0.9736 0.0522 
V19 0.6262 0.6079 
V2o 0.6223 0.6127 
Val 0.9549 0.0882 
V22 0.8912 0.2057 


V23 0.9812 0.0373 


图 23.45 因子 分 析 结 果 图 10 


图 23.45 的 上 半 部 分 说 的 是 因子 分 析 模 型 的 一 般 情况 ， 从 图 中 我 们 可 以 看 出 共有 42 个 样 
本 (Number of obs= 42) 参与 了 分 析 ， 提 取保 留 的 因子 共有 1 个 (Retained factors = 1) ， 模 型 
LR 检验 的 卡 方 值 (LR test: independent vs. saturated: chi2(36)) 为 825.54, P 值 (Prob>chi2) 
为 0.0000， 模 型 非常 显著 。 图 23.45 的 上 半 部 分 最 左 列 (Factor) 说 明 的 是 因子 名 称 ， 可 以 看 
出 模型 共 提取 了 9 个 因子 。Eigenvalue 列表 示 的 是 提取 因子 的 特征 值 情 况 ， 只 有 第 一 个 因子 的 
特征 值 是 大 于 1 的 ， 第 一 个 因子 的 特征 值 是 7.28382。Proportion 列表 示 的 是 提取 因子 的 方差 
贡献 率 ， 其 中 第 一 个 因子 的 方差 贡献 率 为 80.93%。Cumulative 列表 示 的 是 提取 因子 的 累计 方 
差 贡 献 率 ， 其 中 前 两 个 因子 的 累计 方差 贡献 率 为 88.87%。 

图 23.45 的 下 半 部 分 说 的 是 模型 的 因子 载荷 矩阵 以 及 变量 的 未 被 解释 部 分 。 其 中 , Variable 
列表 示 的 是 变量 名 称 ，Factorl 列 说 明 的 是 提取 的 第 一 个 主因 子 〈 特 征 值 大 于 1 的 ) 对 各 个 变 
量 的 解释 程度 。Uniqueness 列表 示 变 量 未 被 提取 的 第 一 主因 子 解释 的 部 分 ,可 以 发 现在 舍弃 其 
他 主因 子 的 情况 下 ， 信 息 的 损失 量 是 很 小 的 。 

(2) 图 23.46 展示 的 是 对 因子 结构 进行 旋转 的 结果 。 学 者 们 的 研究 表明 ， 旋 转 操作 有 助 
于 进一步 简化 因子 结构 。Stata 14.0 支持 的 旋转 方式 有 两 种 ， 一 种 是 最 大 方差 正 交 旋转 ， 一 般 
适用 于 相互 独立 的 因子 或 者 成 分 ， 也 是 系统 默认 的 情况 ， 另 一 种 是 promax 斜 交 旋 转 ， 人 允许 因 
子 或 者 成 分 之 间 存 在 相关 关系 。 此 处 我 们 选择 系统 默认 方式 , 当然 我 们 后 面 的 操作 也 证 明了 这 
样 做 的 恰当 性 。 
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Number of obs = 42 
Retained factors = 
Number of params = 9 
Factor Variance Difference Proporcion Cumulative 
Factorl 了 .28382 0.8093 0.8093 
LR test: independent vs. saturated: chi2(36) = 825.54 Prob>chi2 = 0.0000 


Rotaved factor loadings (pattern matrix) and unique variances 


Variable | Factorl Uniqueness 
v15 0.9850 0.0298 
V16 0.9834 0.0329 
V17 0.9749 0.0495 
Vie 0.9736 0.0522 
V19 0.6262 0.6079 
Vz0 0.6223 0.6127 
Val 0.9549 0.0882 
V22 0.8912 0.2057 
V23 0.9812 0.0373 


Factor rotation matrix 


Factorl 


Factorl | 1.0000 


图 23.46 因子 分 析 结 果 图 11 


图 23.46 包 括 3 部 分 内 容 ， 第 一 部 分 说 的 是 因子 旋转 模型 的 一 般 情况 ， 从 图 中 我 们 可 以 看 出 
共有 42 个 样本 (Number of obs = 42) 参与 了 分 析 ， 提 取保 留 的 因子 共有 1 个 (Retained factors = 
1), 模 型 LR 检验 的 卡 方 值 (LR test: independent vs. saturated: chi2(15)) 为 825.54,P 值 (Prob>chi2) 
为 0.0000， 模 型 非常 显著 。 最 左 列 〈Factor) 说 明 的 是 因子 名 称 ， 可 以 看 出 模型 旋转 后 共 提 取 
了 1 个 因子 。Proportion 列 表示 的 是 提取 因子 的 方差 贡献 率 ， 其 中 第 一 个 因子 的 方差 贡献 率 为 
80.93%。Cumulative 列 表示 的 是 提取 因子 的 累计 方差 贡献 率 。 

图 23.46 的 第 二 部 分 说 的 是 模型 的 因子 载荷 矩阵 以 及 变量 的 未 被 解释 部 分 。 其 中 ，Variable 
列表 示 的 是 变量 名 称 ，Factor1 列 说 明 的 是 旋转 提取 的 两 个 主因 子 对 各 个 变量 的 解释 程度 ， 本 
例 中 ，Factorl 主 要 解释 的 是 V15~V23 这 9 个 变量 的 信息 ， Uniqueness 列 表示 变量 未 被 提取 的 前 
两 个 主因 子 解释 的 部 分 ， 可 以 发 现在 舍弃 其 他 主因 子 的 情况 下 ， 信 息 的 损失 量 是 很 小 的 。 

图 23.46 的 第 三 部 分 展示 的 是 因子 旋转 矩阵 的 一 般 情况 。 


(3) 图 23.47 展 示 的 是 因子 分 析 后 各 个 样本 的 因子 得 分 情况 。 因 子 得 分 的 概念 是 通过 将 每 
个 变量 标准 化 为 平均 数 等 于 0 和 方差 等 于 1, 然 后 以 因子 分 析 系 数 进行 加 权 合 计 为 每 个 因子 构成 
的 线性 情况 。 以 因子 的 方差 贡献 率 为 权 数 对 因子 进行 加 权 求 和 , 即 可 得 到 每 个 样本 的 因子 综合 
得 分 。 
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~ predict £1 
(regression scoring assuped) 


Scoring coefficients (method = regression; based on varimax rotated factors) 


Variable | Factorl 


Vi5 | 0.13523 
V16 | 0.13501 
V17 | 0.13385 
VB | 0.13366 
Vi9 | 0.08597 
Vz0 | 0.08544 
vel | 0.13110 
V22 | 0.12236 
V23 | 0.13471 


图 23.47 因子 分 析 结 果 图 12 
根据 图 23.47 展示 的 因子 得 分 系数 和 矩阵 , 我 们 可 以 写 出 各 公 因子 的 表达 式 。 值 得 一 提 的 是 ， 
在 表达 式 中 各 个 变量 已 经 不 是 原始 变量 而 是 标准 化 变量 。 
表达 式 如 下 : 
F=0.135* 企 业 财 产 保 险 赔 款 支 出 +0.135* 机 动车 辆 保险 赔款 支出 
+0.134 货物 运输 保险 赔款 支出 +0.134* 责 任 保险 赔款 支出 
+0.086* 信 用 保证 保险 赔款 支出 +0.085* 农 业 保险 赔款 支出 
+0.131* 短 期 健康 保险 赔款 支出 +0.122* 意 外 伤害 保险 赔款 支出 
+0.135* 其 他 保险 赔款 支出 


选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 23.48 所 示 的 因子 得 分 数据 。 


pr 
CEE 


Ey 5 9910009 


23.48 因子 分 析 结 果 图 13 
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(4) 图 23.49 展 示 的 是 本 例 因子 分 析 的 KMO 检 验 结果 。 
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图 23.49 因子 分 析 结 果 图 14 


KMO 检验 是 为 了 看 数据 是 否 适合 进行 因子 分 析 ， 其 取 值 范围 是 0~1。 其 中 ,0.9~1 表示 极 
好 ，0.8~0.9 表示 可 奖励 的 ，0.7~0.8 表示 还 好 ，0.6~0.7 表示 中 等 ，0.5~0.6 表示 糟糕 ，0~0.5 表 
示 不 可 接受 。 如 图 23.49 所 示 ， 本 例 中 总 体 〈Overall) KMO 的 取 值 为 0.8396， 表 明 可 以 进行 
因子 分 析 。 全 部 变量 的 KMO 值 也 都 在 0.8 以 上 ， 所 以 本 例 是 比较 适合 因子 分 析 的 ， 模 型 的 构 
建 是 有 意义 的 。 

(5) 图 23.50 展 示 的 是 本 例 因子 分 析 所 提取 的 各 个 因子 的 特征 值 碎 石 图 。 


Scree plot of eigenvalues after factor 


0 2 4 6 
Number 


图 23.50 因子 分 析 结 果 图 15 


碎 石 图 可 以 非常 直观 地 观测 出 提取 因子 的 特征 值 大 小 情况 。 图 23.50 的 横 轴 表示 的 是 系统 
提取 因子 的 名 称 ， 并 且 已 经 按 特 征 值 大 小 进行 降序 排列 好 ， 纵 轴 表 示 因 子 特征 值 的 大 小 情况 。 
从 图 23.50 中 可 以 轻松 地 看 出 本 例 中 只 有 第 一 个 因子 的 特征 值 是 大 于 1 的 。 


23.8” 聚 类 分 析 


对 于 聚 类 分 析 ， 我 们 也 准备 从 两 部 分 进行 : 

第 一 ， 使 用 构成 保费 收入 的 各 个 变量 对 各 个 财 险 公司 进行 聚 类 。 

第 二 ， 使 用 构成 赔款 支出 的 各 个 变量 对 各 个 财 险 公司 进行 聚 类 。 

1. 使 用 构成 保费 收入 的 各 个 变量 对 各 个 财 险 公司 进行 聚 类 

观察 到 不 同 变量 的 数量 级 相差 不 大 ， 所 以 无 须 先 对 数据 进行 标准 化 处 理 ， 直 接 进 行 分 析 
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分 析 步 又 如 下 : 


进入 Stata 14.0， 打 开 相 关 数 据 文件 ， 弹 出 “ 主 界面 ”对 话 框 。 

贺 在 “ 主 界面 ”对 话 框 的 “Command” 文 本 框 中 分 别 输入 下 面 的 命令 并 按键 盘 上 的 回 
车 键 进行 确认 : 

cluster kmeans V3-V11,k(4) 

本 操作 命令 的 含义 是 设 定 聚 类 数 为 4， 然 后 使 用 “K 个 平均 数 的 聚 类 分 析 ” 方 法 对 变量 
V3~V11 进行 分 析 。 

加 设置 完毕 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


在 Stata 14.0“ 主 界面 ”的 结果 窗口 我 们 可 以 看 到 如 图 23.51~ 图 23.54 所 示 的 分 析 结果 。 


图 23.51 展 示 的 是 设 定 聚 类 数 为 4， 然 后 使 用 “K 个 平均 数 的 聚 类 分 析 ” 方 法 进行 分 析 的 结 
果 。 在 输入 Stata 命 令 并 分 别 按键 盘 上 的 回 车 键 确认 后 ,我 们 可 以 看 到 系统 产生 了 一 个 新 的 变量 ， 
聚 类 变量 clus 1 (clustername: clus 1) 。 


+ cluster kmeans V3-V11,k(4) 
cluster name: clus 1 


图 23.51 聚 类 分 析 结 果 图 1 
选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 23.52 所 示 的 _clus_1 数 据 。 


ata Editor (Edat) 


23.52 聚 类 分 析 结 果 图 2 
在 图 23.52 中 ， 我 们 可 以 看 到 所 有 的 观测 样本 被 分 为 四 类 ， 其 中 人 保 财 险 属 于 第 三 类 ， 中 
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华 联合 、 太 保 产 险 、 平 安 产 险 属于 第 一 类 ， 大 地 、 中 国保 险 、 太 平 、 阳 光 财 险 、 天 安 、 永 安 、 
安 邦 属于 第 四 类 ,其 他 财 险 公司 属于 第 二 类 。 可 以 发 现 , 第 三 类 公司 各 类 保险 的 保费 收入 都 非 
常 高 ; 第 三 类 的 信用 保证 保险 保费 收入 较 高 ,其 他 保险 保费 收入 都 很 低 ; 第 一 类 信用 保证 保险 
保费 收入 很 低 , 其 他 保险 保费 收入 都 较 高 ; 第 四 类 的 保险 保费 收入 都 较 低 ， 农 业 保险 保费 收入 
则 很 低 。 

我 们 通过 聚 类 分 析 得 到 的 研究 结论 是 : 人 保 财 险 各 类 保险 的 保费 收入 都 非常 高 ， 是 我 国 
财产 保险 行业 的 “ 巨 无 霸 ”; 中 华 联合 、 太 保 产 险 、 平 安 产 险 信用 保证 保险 保费 收入 很 低 ， 其 
他 保险 保费 收入 都 较 高 ， 大 地 、 中 国保 险 、 太 平 、 阳 光 财 险 、 天 安 、 永 安 、 安 邦 的 保险 收入 则 
较 低 ， 农 业 保险 保费 收入 很 低 ; 其 他 大 部 分 的 财 险 公司 都 是 信用 保证 保险 保费 收入 较 高 ， 而 别 
的 险种 保费 收入 都 很 低 , 机 动车 辆 保险 保费 收入 和 信用 保证 保险 保费 收入 是 其 保费 收入 的 最 大 
来 源 。 

2. 使 用 构成 赔款 支出 的 各 个 变量 对 各 个 财 险 公司 进行 聚 类 

观察 到 不 同 变量 的 数量 级 相差 不 大 ， 所 以 无 须 先 对 数据 进行 标准 化 处 理 ， 直 接 进行 分 析 
即 可 。 

分 析 步 骤 如 下 : 

加 进入 Stata 14.0， 打 开 相 关 数 据 文 件 ， 弹 出 “ 主 界面 ”对 话 框 。 

加 在 “ 主 界面 ”对 话 框 的 “Command” 文 本 框 中 分 别 输 入 下 面 的 命令 并 按键 盘 上 的 回 车 
键 进行 确认 : 

cluster kmeans V15-V23,k(4) 

本 操作 命令 的 含义 是 设 定 聚 类 数 为 4， 然 后 使 用 “K 个 平均 数 的 聚 类 分 析 ” 方 法 对 变量 
V15~V23 进行 分 析 。 

加 设置 完毕 ， 按 键盘 上 的 回 车 键 ， 等 待 输出 结果 。 


在 Stata 14.0“ 主 界面 ”的 结果 窗口 我 们 可 以 看 到 如 图 23.53、 图 23.54 所 示 的 分 析 结 果 。 


图 23.53 展 示 的 是 设 定 聚 类 数 为 4， 然 后 使 用 “K 个 平均 数 的 聚 类 分 析 ” 方 法 进行 分 析 的 结 
果 。 在 输入 Stata 命 令 并 分 别 按键 盘 上 的 回 车 键 确 认 后 ,我 们 可 以 看 到 系统 产生 了 一 个 新 的 变量 ， 
聚 类 变量 clus 2 (cluster name: _clus 2) 。 


。 cluster kmeans V15-V23,k(4) 
cluster name: clus 2 


图 23.53 聚 类 分 析 结 果 图 3 
选择 “Data”|“Data Editor”|“Data Editor(Browse)” 命 令 ， 进 入 数据 查看 界面 ， 可 以 看 
到 如 图 23.54 所 示 的 _clus_2 数 据 。 
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图 23.54 聚 类 分 析 结 果 图 4 


图 23.54 中 , 我 们 可 以 看 到 所 有 的 观测 样本 被 分 为 四 类 , 其 中 人 保 财 险 属于 第 四 类 , 大 地 、 
天 安 、 永 安 、 安 邦 属于 第 二 类 ， 中 华 联合 、 太 保 产 险 、 平 安 产 险 属于 第 一 类 ， 其 他 财 险 公司 属 
于 第 三 类 。 可 以 发 现 , 第 四 类 公司 各 类 保险 的 赔款 支出 都 非常 高 ; 第 二 类 公司 除 信用 保证 保险 
赔款 支出 、 农 业 保险 赔款 支出 较 低 外 ， 其 他 保险 保费 收入 都 最 低 ; 第 三 类 公司 则 除 信 用 保证 保 
险 赔款 支出 、 农 业 保 险 赔款 支出 最 低 外 ， 其 他 保险 保费 收入 都 较 低 ; 第 一 类 各 类 保险 的 赔款 支 
出 都 较 高 。 


我 们 通过 聚 类 分 析 得 到 的 研究 结论 是 : 人保 财 险 各 类 保险 的 赔款 支出 都 非常 高 ， 大 地 、 
天 安 、 水 安 、 安 邦 等 除 信用 保证 保险 赔款 支出 、 农 业 保险 赔款 支出 最 低 外 ， 其 他 保险 保费 收入 
都 较 低 ， 中 华 联合 、 太 保 产 险 、 平 安 产 险 等 各 类 保险 的 赔款 支出 都 较 高 ， 其 余 财 险 公司 除 信 用 
保证 保险 赔款 支出 、 农 业 保险 赔款 支出 较 低 外 ， 其 他 保险 赔款 支出 都 最 低 。 


23.9 ”研究 结论 


根据 以 上 所 做 的 分 析 ， 我 们 可 以 比较 有 把 握 地 得 出 以 下 结论 。 


(1) 简单 相关 分 析 表 明 : 构成 “保费 收入 合计 ”的 9 个 组 成 部 分 ， 除 “信用 保证 保险 保 
费 收 入 ”与 别 的 变量 相关 关系 较 弱 外 ， 其 他 变量 之 间 都 具有 很 强 的 相关 性 ， 都 在 0.01 的 显著 
性 水 平 上 显著 。 

(2) 简单 相关 分 析 表 明 : 构成 “赔款 支出 合计 ”的 所 有 变量 之 间 都 具有 比较 强 的 相关 性 ， 
大 部 分 的 相关 性 还 很 强 ， 在 0.01 的 显著 性 水 平 上 显著 。 
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(3) 简单 相关 分 析 表 明 : 我 国 财 险 公司 的 “保费 收入 合计 ”“ 赔 款 支 出 合计 ” “总 人 数 ” 
这 3 个 变量 之 间 相关 性 很 强 。 

(4) 简单 相关 分 析 表 明 : 我 国 财 险 公司 的 “ 赔 案 件数 ”“ 赔 款 支出 合计 ”“ 未 决 赔款 ” 
这 3 个 变量 之 间 相关 性 很 强 。 

(5) 经 过 多 重 线性 回归 分 析 ， 可 以 发 现 我 国 财产 保险 公司 的 总 保费 收入 水 平 与 公司 职员 
的 性 别 、 年 龄 、 职 称 、 文 化 水 平 都 有 一 定 的 显著 关系 。 具 体 而 言 ， 中 级 职称 或 者 大 专 、 中 专 以 
下 、 博 士 学 历 或 者 三 十 五 岁 以 下 、 四 十 六 岁 以 上 的 职员 对 公司 的 总 保费 收入 有 拉动 效应 , 尤其 
是 博士 学 历 的 职员 ,每 增加 一 单位 会 带 来 对 应 保费 收入 的 300 多 倍 的 增加 ;高 级 职称 或 者 男性 、 
女性 的 职员 对 公司 的 总 保费 收入 有 拖 后 效应 。 

(6) 经 过 多 重 线性 回归 分 析 ， 可 以 发 现 我 国 财产 保险 公司 的 赔款 支出 总 水 平 与 公司 职员 
的 性 别 、 年 龄 、 职 称 、 文化 水 平 都 有 一 定 的 显著 关系 。 具体 而 言 , 中 级 职称 或 者 三 十 五 岁 以 下 、 
三 十 六 岁 到 四 十 五 岁 、 四 十 六 岁 以 上 的 职员 对 公司 的 总 赔款 支出 有 拉动 效应 ; 初级 职称 或 者 硕 
士 学 历 、 学 士 学 历 、 大 专 学 历 或 者 女性 的 职员 对 公司 的 总 赔款 支出 有 拖 后 效应 。 

(7) 因子 分 析 表 明 : 可 以 对 构成 我 国 财 险 公司 “保费 收入 合计 ”的 9 个 组 成 部 分 提取 两 

个 公 因子 , 其 中 一 个 公 因子 主要 反映 除 信用 保证 保险 保费 收入 以 外 的 变量 的 信息 , 第 二 个 公 因 

子 反映 的 是 信用 保证 保险 保费 收入 这 -变量 的 信息 。 

(8) 因子 分 析 表 明 : 基于 变量 之 间 的 高 相关 性 ， 对 构成 我 国 财 险 公司 “赔款 支出 合计 ” 
的 9 个 组 成 部 分 提取 一 个 公 因 子 已 足以 反映 这 些 变量 的 信息 。 

(9) 聚 类 分 析 表 明 : 人 保 财 险 各 类 保险 的 保费 收入 都 非常 高 , 是 我 国 财产 保险 行业 的 “ 巨 
无 霸 ”; 太保 产 险 、 平 安 产 险 、 华 泰 财 险 信用 保证 保险 保费 收入 很 低 ， 其 他 保险 保费 收入 都 较 
高 大地、 中 国保 险 、 太 平 、 阳 光 财 险 、 天 安 、 永 安 、 安 邦 农业 保险 保费 收入 很 低 ， 其 他 保险 
保费 收入 较 低 ; 剩余 的 大 部 分 财 险 公司 都 是 信用 保证 保险 保费 收入 较 高 , 而 别 的 险种 保费 收入 
都 很 低 ， 机 动车 辆 保险 保费 收入 和 信用 保证 保险 保费 收入 是 其 保费 收入 的 最 大 来 源 。 

(10) 聚 类 分 析 表 明 : 人 保 财 险 各 类 保险 的 赔款 支出 都 非常 高 ， 大 地 、 天 安 、 永 安 、 安 
邦 等 除 信用 保证 保险 赔款 支出 、 农 业 保险 赔款 支出 最 低 外 ， 其 他 保险 保费 收入 都 较 低 ; 中 华 联 
合 、 太 保 产 险 、 平 安 产 险 等 各 类 保险 的 赔款 支出 都 较 高 ;其余 的 财 险 公司 除 信用 保证 保险 赔款 
支出 、 农 业 保险 赔款 支出 较 低 外 ， 其 他 保险 赔款 支出 都 最 低 。 

经 过 以 上 研究 ， 我 们 可 以 从 一 种 宏观 的 视野 上 对 我 国 的 财 险 公司 有 一 个 比较 全 面 的 了 解 ， 
这 对 于 以 后 我 国 财 险 公司 的 发 展 有 重要 的 借鉴 和 指导 意义 。 比 如 根据 回归 分 析 部 分 的 结论 , 为 
提高 总 保费 收入 水 平 ,我 国 财产 保险 公司 在 招聘 员工 的 时 候 应 该 注意 多 招 一 些 中 级 职称 或 者 大 
专 、 中 专 以 下 、 博 士 学 历 或 者 三 十 五 岁 以 下 、 四 十 六 岁 以 上 的 职员 ， 为 降低 总 赔款 支出 水 平 ， 
我 国 财产 保险 公司 在 招聘 员工 的 时 候 应 该 注意 多 招 一 些 初级 职称 或 者 硕士 学 历 、 学 士 学 历 、 大 
专 学 历 或 者 女性 职员 。 再 如 ， 聚 类 分 析 表 明 ， 人 保 财 险 在 中 国 一 枝 独 秀 ， 大 部 分 财 险 公司 无 论 
是 保费 收入 还 是 赔款 支出 都 相差 甚 远 ,所 以 为 使 我 国 财 险 业 能 以 一 种 更 加 健康 的 充满 竞争 的 方 
式 成 长 ， 政 府 有 必要 做 一 些 努 力 ， 以 改变 这 种 情况 。 
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23.10 本章 习题 


使 用 《中 国保 险 年 鉴 2007》 上 的 《 中 国 2006 年 各 保险 公司 人 员 结 构 情 况 统计 》 和 《中 
国 2006 年 各 财产 保险 公司 业务 统计 》 数 据 (数据 已 整理 入 Stata 中 ) ， 进 行 以 下 分 析 。 


(1) 相关 分 析 

第 一 ， 对 “保费 收入 合计 ”的 9 个 组 成 部 分 一 一 “企业 财产 保险 保费 收入 ”“ 机 动车 辆 
保险 保费 收入 ”“ 货 物 运 输 保险 保费 收入 ”“ 责 任 保险 保费 收入 ”“ 信 用 保证 保险 保费 收入 ” 
“农业 保险 保费 收入 ”“ 短 期 健康 保险 保费 收入 ”“ 意 外 伤害 保险 保费 收入 ”“ 其 他 保险 保费 
收入 ”进行 简单 相关 分 析 。 

第 三 ， 对 “赔款 支出 合计 ”的 9 个 组 成 部 分 一 “企业 财产 保险 赔款 支出 ”“ 机 动车 辆 
保险 赔款 支出 ”“ 货 物 运 输 保险 巾 款 支出 ”“ 责 任 保险 巾 款 支出 ”“ 信 用 保证 保险 赔 丈 支出 ” 
“农业 保险 赔款 支出 ”“ 短 期 健康 保险 赔款 支出 ”“ 意 外 伤害 保险 赔款 支出 ”“ 其 他 保险 赔款 
支出 ”进行 简单 相关 分 析 。 

第 三 ， 对 “保费 收入 合计 ”“ 赔 款 支 出 合计 ”“ 总 人 数 ” 这 3 个 变量 进行 简单 相关 分 析 。 

第 四 ， 对 “ 赔 案件 数 ”“ 周 款 支出 合计 ”“ 未 决 赔款 ”这 3 个 变量 进行 简单 相关 分 析 。 


(2) 回归 分 析 

第 一 ， 以 “保费 收入 合计 ”为 因 变 量 ， 以 “ 男 ”“ 女 ”“ 博 士 ”“ 硕 士 ”“ 学 士 ”“ 大 
专 "“ 中 专 以 下 ” “高 级 ”“ 中 级 ”“ 初 级 ”“ 三 十 五 岁 以 下 " “三 十 六 岁 到 四 十 五 岁 ”“ 四 
十 六 岁 以 上 ”为 自 变量 ， 进 行 最 小 二 乘 线性 回归 。 

第 二 ， 以 “赔款 支出 合计 ”为 因 变 量 ， 以 “ 男 ”“ 女 ” “博士” “硕士 ” “学士 ”“ 大 
专 "“ 中 专 以 下 ” “高 级 ”“ 中 级 ”“ 初 级 ”“ 三 十 五 岁 以 下 " “三 十 六 岁 到 四 十 五 岁 ”“ 四 
十 六 岁 以 上 ”为 自 变量 ， 进 行 最 小 二 乘 线性 回归 。 


(3) 因子 分 析 
第 一 ， 对 构成 保费 收入 的 各 个 变量 提取 公 因 子 。 
第 一， 对 构成 赔款 支出 的 各 个 变量 提取 公 因子。 


(4) 聚 类 分 析 
第 一 ， 使 用 构成 保费 收入 的 各 个 变量 对 各 个 财 险 公 司 进 行 聚 类 。 
第 二 ， 使 用 构成 赔款 支出 的 各 个 变量 对 各 个 财 险 公 司 进 行 聚 类 。 
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